新闻动态
- 01 / 展台资讯
- 02 / 行业新闻

面向新闻媒体的命名实体识别技术|澳门沙金在线平台

2024-12-11 19:37:02

来源:

本文摘要：命名实体识别（Named Entity Recognition）简称NER，是自然语言处置惩罚领域应用广泛而且焦点的技术，是文章内容明白的基础，也是问答系统、搜索系统的底层技术之一。

命名实体识别（Named Entity Recognition）简称NER，是自然语言处置惩罚领域应用广泛而且焦点的技术，是文章内容明白的基础，也是问答系统、搜索系统的底层技术之一。尤其在中文语言处置惩罚中，NER可以看做分词的一部门，是未登录词识别中数量最多、识别难度最大的一部门，而且由于实体往往代表重要的意向，对于分词效果也影响显著。命名实体包罗人、地、机构、专有名词等，在差别的领域，对于实体有着差别的界说。在媒体领域，由于会涉及娱乐、财经、科技、体育、医疗教育等各行各业的资讯消息，所以对这些领域的常见专有名词都需要有一定的识别精度。

此外，媒体领域也需要关注与热门资讯与突发事件关联的实体，好比电视剧“都挺好”，地名“响水”等。所以媒体NER比力看重以下两个特性：自动识别未登录词从而发现新词兼容领域词库从而实现多领域自动适配01命名实体识别技术生长历程01从实现原理来分类，随着机械学习的生长以及深度学习技术的应用，NER技术发生了如下的技术演进门路：1. 基于规则和词典的方法例则和词典的方法指的是通过手动构建识别实体词的规则，以及收集领域相关的实体词词典。这种方法适用于确定实体的荟萃好比地名、球队名称，或者牢固花样的实体好比时间、书名号等。这种方法的缺点是扩展性很差，不能发现未登录词，是早期或者简朴的实体词识别系统所接纳的方案。

然而这种方法也并纷歧无是处。基于规则和词典的优势在于不需要人工标注的语料库，通过添加词库可快速适应新领域。

澳门沙金在线平台

对于一些面向业务的规则，好比保留书名号内的完整的影戏名，基于规则的方法会到达更高的正确率。所以成熟的NER系统往往会兼容词库和规则的算法，从而到达总体更佳的识别效果。2. 传统机械学习方法在机械学习中，NER一般被抽象为序列标注问题，使用人工标注的大量语料库来标注模型。在机械学习中，举行线性序列标注的模型包罗生成式模型HMM，判别式模型CRF等。

HMM（隐马尔科夫模型）是统计概率模型，在NER使用的模式是已知视察序列（句子中的词），求背后概率最高的标注序列（即每个字的分词状态）。在NER中，HMM假设每个标注取决于前面的标注效果和当前的视察序列，组成如下的概率图模型：HMM的转移概率模型[1]其中 A 表现上一个状态到下一个状态的转移概率矩阵，B表现隐藏状态到当前的观察状态的转移概率矩阵，另外使用s表现初始状态。一个HMM模型通过构建（A，B，s）来表现序列概率。

澳门沙金在线平台

不外HMM的缺点从原理上也能看出：一个词的实体词类型，只取决于当前词以及前面的状态，无法思量更远的词以及后面的词的影响，从而导致无法到达全局最优。因为HMM为了对团结概率漫衍举行建模，HMM引入两条独立性假设：马尔科夫链在任意时刻的状态Xi仅依赖于前一个状态Xi-1；任意时刻的观察Oi只依赖于该时刻马尔科夫链的状态Xi。在序列标注的机械学习算法中，CRF（条件随机场）是现在最佳的算法方案，CRF无需引入独立性假设，能够充实使用上下文信息特征，盘算全局最优输出节点的条件概率，克服了HMM只能局限于部门上下文特征的局限。下图所示是用于NER的线性条件随机场，把字、分词、词性标注等作为特征输入。

用于NER的线性链CRFCRF具有很强的推理能力，而且能够使用庞大、有重叠性和非独立的特征举行训练和推理，能够充实地使用上下文信息作为特征，还可以任意地添加其他外部特征，使得模型能够获取的信息很是富厚。3. 深度学习算法随着深度学习的生长，自然语言的向量表现法横空出世，使得自然语言能够使用深度神经网络举行处置惩罚，最常见的就是RNN模型的变种，好比GRU和LSTM等，可以提取文本更长距离的上下文特征信息。联合CRF对序列模型举行建模的能力，使用Bi-LSTM提供上下文信息，可以到达更佳的标注效果。

现在业界最常用的深度学习分词和NER算法模型如下图所示：Bi-LSTM+CRF实现NER的网络模型[2] 在这个网络中，一共有三层。第一层是输入的word-embedding，一般是预训练的embedding模型，在网络中举行fine-tuning，输出的是每个词的向量表现。第二层由双向LSTM组成，能够学习到上下文特征，输出的是每个词的上下文情况的向量表现。

第三层是CRF层，基础的CRF层能够使用CRF模型来构建crf-loss，然后用获得的CRF特征联合viterbi算法举行求解序列，在tensorflow的keras中，有更完整的CRF-layer能够实现对序列的标注训练和直接求解。4. 注意力模型注意力（Attention）模型是近年来深度学习领域大放异彩的网络模型，起源于视觉的注意力机制。随着2018年google的BERT在各种自然语言角逐中大杀四方，Attention模型更优秀的表现能力逐渐取代了RNN在自然语言处置惩罚中的顶部位置。

在自然语言处置惩罚中，使用注意力（Attention）的语义表现模型为Transformer模型。下图为我们使用Transformer模型举行命名实体识此外流程图。Transformer ner模型流程图现在我们直接使用Transformer举行序列标注，在输出层使用SoftMax函数直接举行预测。

可是这样无法思量标签之间的转移概率，如在标注了TIME_E以后，TIME_M标签泛起的概率应该更大。直接使用SoftMax函数，是一种贪心的预测方式，其纷歧定为最优解。

澳门沙金在线平台