Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
文本表示
一般来说,对于中文的文本首先需要进行合理的分词处理。目前常用开源项目的有jieba,NLP_China,hanlp,都是比较方便的。经过处理后的文本就需要进行表示方法的选择了。
从上往下的流程,是步步深入的。不断地引入已有的自然语言理解的知识,从POS tag到语法结构,再加上实体和关系信息,乃至逻辑谓词等等。人工添加知识也是随着往下的过程逐步加深的。
文本表示和分析功能的引入
本课程集中在词的层次,也就是对词关系分析;话题分析;和情感分析。应用场景则包含了同义词发现;话题和观点相关的应用。
小结
- 文本的表示决定了可以用什么样的数据挖掘算法
- 存在若干中表示文本的可能方法:字符串、词、语法结构、实体关系图、谓词...;可以/应该被组合起来应用
- 该课程集中在基于词的表示:通用且健壮(ie 可以使用于任意自然语言;不需要过多的人工参与;对大多数的应用很有效;可以通过组合获得更加复杂的表示