自然语言处理
雷尼尔山 背景主题图源自美国华盛顿·雷尼尔山国家公园
中文命名实体识别
基于字标注的中文分词
基于字标注的中文分词就是给每个字都进行一个标注 O,如果是一个词的话,则使用 B(begin) M(middle) E(end) 进行标注。举例如下,一句话是:
“我爱北京天安门”
分词之后的结果如下:
“我/O 爱/O 北/B 京/E 天/B 安/M 门/E”
“我”、“爱”都是一个字,使用 O 标记;“北京”是一个词,一个字是开头 B,一个字是结尾 E;“天安门”是一个词,“安”使用中间标记 M。
命名实体识别
命名实体识别就是把不属于实体的字用 O 标注,把实体用 BME 规则标注,最后按照 BME 规则把实体提取出来。例如某个数据集提供下列 6 个实体:
time: 时间
location: 地点
personname: 人名
orgname: 组织名
companyname: 公司名
productname: 产品名
在 NLP 课程中,我们会使用 CLUENER2020 公开的数据集,该 数据集 是中文细粒度命名实体识别的数据集,一共有 10 个类别:
地址(address)
书名(book)
公司(company)
游戏(game)
政府(goverment)
电影(movie)
姓名(name)
组织机构(organization)
职位(position)
景点(scene)
举例说明:
text: “北京勘察设计协会副会长兼秘书长周荫如”
label: {“organization”: {“北京勘察设计协会”: [[0, 7]]}, “name”: {“周荫如”: [[15, 17]]}, “position”: {“副会长”: [[8, 10]], “秘书长”: [[12, 14]]}}
其中,organization,name,position代表实体类别,
“organization”: {“北京勘察设计协会”: [[0, 7]]}:表示原text中,“北京勘察设计协会” 是类别为 “组织机构(organization)” 的实体, 并且start_index为0,end_index为7 (注:下标从0开始计数)
“name”: {“周荫如”: [[15, 17]]}:表示原text中,“周荫如” 是类别为 “姓名(name)” 的实体, 并且start_index为15,end_index为17
“position”: {“副会长”: [[8, 10]], “秘书长”: [[12, 14]]}:表示原text中,“副会长” 是类别为 “职位(position)” 的实体, 并且start_index为8,end_index为10,同时,“秘书长” 也是类别为 “职位(position)” 的实体,
并且start_index为12,end_index为14
这里链接 CLUENER2020论文 论文地址,关于如何读论文,这里参考一下李沐老师的《读论文》栏目。
李沐老师
如何读论文
- title
- abstract
- introduction
- method
- experiments
- conclusion
第一遍:标题、摘要、结论。可以看一看方法和实验部分重要的图和表。这样可以花费十几分钟时间了解到论文是否适合你的研究方向。
第二遍:确定论文值得读之后,可以快速的把整个论文过一遍,不需要知道所有的细节,需要了解重要的图和表,知道每一个部分在干什么,圈出相关文献。觉得文章太难,可以读引用的文献。
第三遍:提出什么问题,用什么方法来解决这个问题。实验是怎么做的。合上文章,回忆每一个部分在讲什么。