雷尼尔山背景主题图源自美国华盛顿·雷尼尔山国家公园

中文命名实体识别

基于字标注的中文分词

基于字标注的中文分词就是给每个字都进行一个标注 O，如果是一个词的话，则使用 B(begin) M(middle) E(end) 进行标注。举例如下，一句话是：

“我爱北京天安门”

分词之后的结果如下：

“我/O 爱/O 北/B 京/E 天/B 安/M 门/E”

“我”、“爱”都是一个字，使用 O 标记；“北京”是一个词，一个字是开头 B，一个字是结尾 E；“天安门”是一个词，“安”使用中间标记 M。

命名实体识别

命名实体识别就是把不属于实体的字用 O 标注，把实体用 BME 规则标注，最后按照 BME 规则把实体提取出来。例如某个数据集提供下列 6 个实体：

time: 时间
location: 地点
personname: 人名
orgname: 组织名
companyname: 公司名
productname: 产品名

在 NLP 课程中，我们会使用 CLUENER2020 公开的数据集，该数据集是中文细粒度命名实体识别的数据集，一共有 10 个类别：

地址（address）
书名（book）
公司（company）
游戏（game）
政府（goverment）
电影（movie）
姓名（name）
组织机构（organization）
职位（position）
景点（scene）

举例说明：

text: “北京勘察设计协会副会长兼秘书长周荫如”

label: {“organization”: {“北京勘察设计协会”: [[0, 7]]}, “name”: {“周荫如”: [[15, 17]]}, “position”: {“副会长”: [[8, 10]], “秘书长”: [[12, 14]]}}

其中，organization，name，position代表实体类别，

“organization”: {“北京勘察设计协会”: [[0, 7]]}：表示原text中，“北京勘察设计协会” 是类别为 “组织机构（organization）” 的实体, 并且start_index为0，end_index为7 （注：下标从0开始计数）

“name”: {“周荫如”: [[15, 17]]}：表示原text中，“周荫如” 是类别为 “姓名（name）” 的实体, 并且start_index为15，end_index为17

“position”: {“副会长”: [[8, 10]], “秘书长”: [[12, 14]]}：表示原text中，“副会长” 是类别为 “职位（position）” 的实体, 并且start_index为8，end_index为10，同时，“秘书长” 也是类别为 “职位（position）” 的实体,
并且start_index为12，end_index为14

这里链接 CLUENER2020论文论文地址，关于如何读论文，这里参考一下李沐老师的《读论文》栏目。

李沐老师