中文命名实体的识别(Named EntitiesRecognition, NER)

关键词:命名实体;识别;Named Entities Recognition,NER;命名实体抽取

    命名实体识别(Named Entity Recognition,NER)主要是识别出文本中出现的专有名称和有意义的数量短语并进行分类, 主要包括人、地名、 机构名、 专有名词、时间表达式(日期、时间)和数字表达式(货币值、百分数等)。从语言分析的全过程来看, 命名实体识别属于词法分析中未登录词识别的范畴。命名实体识别本质上是一个模式识别任务, 即给定一个句子, 识别句子中实体的边界和实体的类型是自然语言处理任务中一项重要且基础性的工作。

    实体关系抽取:实体和实体之间存在着语义关系, 当两个实体出现在同一个句子里时, 上下文环境就决定了两个实体间的语义关系。
    完整的实体关系包括两方面:关系类型和关系的参数,关系类型说明了该关系是什么关系, 如雇佣关系、 类属关系等; 关系的参数也就是发生关系的实体,如雇佣关系中的雇员和公司。关系的参数至少是两个,两个参数的关系叫二元关系, 两个以上参数的关系是多元关系。关系有对称关系和非对称关系, 对称关系的参数不考虑参数的顺序, 非对称关系的参数要考虑顺序, 不同的顺序表达不同的关系。有时候实体关系还会有时间属性, 即实体关系存在的有效期。
实体关系抽取可以看做一个分类问题,使用有监督(比标记学习)、半监督(统计分析)或无监督(聚类方法)等方法进行。实体关系抽取往往关注一个句子内的上下文,跨句子的上下文关系抽取就比较难。
    实体识别和实体关系抽取问题基本思路就是转换为分类或序列标注问题进行解决。
    实体识别和实体关系抽取夸领域会出现性能严重下降的问题。

  • 命名实体识别算法

算法有基于规则和基于统计两种思路。
    基于规则的方法主要是根据待识别的命名实体的语言学上的表现形式,人为设定一些规则来识别命名实体的方法。这类方法实现的效果很大程度上依赖于规则的设定且需要大量的专业知识,而且因为不同领域内的实体具有不同的规则,所以对每个新领域的文本处理都要重新设定规则。使用基于规则的方法来进行命名实体识别比较消耗时间和消耗人力。 基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。
    基于统计的方法主要利用原始的或经过加工的(人工标注的)语料进行训练,其语料的加工(标注)不需要非常多的语言学的知识,而且小规模的语料可以在可接受的时间和人力代价下完成,且基于统计的方法实现的命名实体识别在新的领域使用时可以不作改动或者做较少的改动,只需要利用新领域的语料进行训练即可。但是由于基于统计的方法获取的概率知识不如基于规则的方法所具有的专家的语言学知识的可靠性,所以基于统计的命名实体识别系统的性能要比基于规则的命名实体识别的性能要低。用于命名实体识别的基于统计的方法主要有:N元模型、隐马尔克夫模型(HiddenMarkovMode,HMM)、最大熵模型(MaxmiumEntropy,ME)、条件随机场( ConditionalRandom Fields,CRF)、决策树(Decision Tree)等等。目前评价性能最好的是隐马尔克夫模型。
    混合方法 自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:1、统计学习方法之间或内部层叠融合。 2、规则、词典和机器学习方法之间的融合,其核心是融合方法技术。 在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。3、将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。 这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来,采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术,在分类方面可以采用的融合技术主要包括如Voting, XVoting,GradingVa,Grading等

知识参考:
Stanford自然语言处理教程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容