一、市场状况(市场容量、竞争格局、市场占有率分布)
据预测,在2015到2020年间,自然语言处理市场将会增长至134亿美元,且复合年均增长率(CAGR)为18.4%。从地区分布来看,北美和欧洲是自然语言市场收入较高的地区。拉丁美洲、中东和非洲以及亚太地区也有较快的增长率。
目前来看,自然语言处理市场的主要公司包括3M、苹果、杜比系统、谷歌、惠普、IBM、微软,、NetBase Solutions、SAS软件研究所、Verint Systems等。
国内NLP市场同样巨大,近年来不少互联网行业巨头开始布局人工智能,除此之外,国内也有一些专注与人工智能行业的企业如达观数据等等。
二、行业分析(历史变化、发展趋势)
1. 历史变化以及趋势NLP自然语言处理(natural language processing)是指计算机读取并将输入文本转换为结构化数据,其中也包括NLU自然语言理解(natural language understanding)以及NLG自然语言生成(natural language generation)。(有些把ASR语音识别技术(Automatic Speech Recognition)归为NLP中,本文中部讨论ASR技术)
图来自量子位
其中,NLU 旨在让机器理解自然语言形式的文本内容。从 NLU 处理的文本单元来讲,可以分为词(term)、句子(sentence)、文档(document)三种不同的类型:
词层面的基础NLU 领域包括分词(汉语、缅甸语、泰语等非拉丁语系语言需要)、词性标注(名词、动词、形容词等)、命名实体识别(人物、机构、地点等)和实体关系提取(例如人物-出生地关系、公司-所在地关系、公司收购关系等);
句子层面的基础NLU 领域包括句法结构解析(获取句子的句法结构)和依存关系解析(获取句子组成部分的依赖关系);
文档层面的基础NLU 领域包含情感分析(分析一篇文档的情感倾向)和主题建模(分析文档内容的主题分布)。
与NLU不同,NLG旨在让机器根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。根据数据源的类型,NLG可以分为三类:
Text to text NLG,主要是对输入的自然语言文本进行进一步的处理和加工,主要包含文本摘要(对输入文本进行精简提炼)、拼写检查(自动纠正输入文本的单词拼写错误)、语法纠错(自动纠正输入文本的句法错误)、机器翻译(将输入文本的语义以另一种语言表达)和文本重写(以另一种不同的形式表达输入文本相同的语义)等领域;
Data to text NLG,主要是根据输入的结构化数据生成易读易理解的自然语言文本,包含天气预报(根据天气预报数据生成概括性的用于播报的文本)、金融报告(自动生成季报/年报)、体育新闻(根据比分信息自动生成体育新闻)、人物简历(根据人物结构化数据生成简历)等领域的文本自动生成
Vision to text NLG,主要是给定一张图片或一段视频,生成可以准确描述图片或视频(其实是连续的图片序列)语义信息的自然语言文本,同时 text to vision 的自动生成近几年也有一些有趣的进展。(以上关于NLP技术文本摘自量子位)
从20世纪80年代开始NLP开始取得了重大的突破与进展,此后随着深度学习以及神经网络技术的发展,NLP开始飞速发展,至今国内外企业以及学术界都致力于NLP技术的不断发展,NLP目前尚多学者成果未应用与实际生活中,还处于初步发展阶段,未来存在巨大的发展空间,NLP也将在未来社会不同行业中造成巨大的冲击,如教育、医疗、互联网、媒体、天气预报、电商等等。
NLP与人工智能手机pc端搜索百度指数
2. 行业应用(简介nlp在目前各个行业的应用)
①.自动批量生产文件(简单报告、发送短信)
主要利用data to text利用本身数据生成结构化文本,目前应用广泛,但只处于初步阶段,目前一般固定文本格式与数据格式。例如:各个网站填写信息自动生成简历,招聘企业发送含有应聘者信息、测评网址、测评密码的邮件等等。
②.数字天气报告文本
墨迹天气AI技术能够更密集地提供精准的气象信息,在天气新闻原创的数量上实现了3000倍增长,给墨迹天气平台带来了2-4%的时长增长。
③.新闻写作,文本生成,机器写作
百度篮球等比赛体育赛事解说、百度feed等的机器写作、诗歌生成等、谷歌分析(Google Analytics)应用、新华社“快笔小新”、腾讯新闻写作软件Dreamwriter、今日头条和万小军实验室的张小明机器人
④.医疗(撰写报告、病情判断)
IBM Watson是IBM和美国纪念斯隆-凯特琳癌症中心(Memorial Sloan-Kettering Cancer Center;MSK)团队共同合作开发的系统,Watson的正确率与癌症疾病相关率则与MSK团队数据有90%的吻合。
同时自动生成医疗报告不仅可以节约医生时间,而且可以给病人更加定制化和精准性的服务,比如生活中的饮食意见等等。
⑤.搜索引擎
⑥.互联网推荐类应用app(生成推荐文章)
各种推荐类app的写手,比如大众点评、淘宝达人推荐、营销号文章。
⑦.教育行业(翻译类、阅读理解、文摘)
2015年5月,百度将神经网络机器翻译技术应用到百度在线翻译服务中,推出了全球首个基于深度学习的大规模在线翻译系统。Google翻译、谷歌AI论文BERT双向编码器(阅读理解)
⑧.舆情监控
水军(谷歌自动生成评论)、论坛网络言语情感分析
⑨.自动问答(客服)
⑩.邮件过滤
⑪.评论的情感分析
比如国外的烂番茄、推特、京东淘宝商品评论(情感挖掘)
由于NLP目前多应用于各个行业于企业中,目前选择具体竞品进行详细分析比较困难,以下三、四、五章节以金融行业做具体分析。
三、需求分析(扮演用户、选择研究对象)
1. 智能问答和语义搜索
它主要应用的场景包括智能投研、智能投顾和智能客服。在智能投研领域,投研人员日常工作需要通过多种渠道搜索大量相关信息。而有了金融问答和语义搜索的帮助,信息获取途径将是“Just ask a question”。并且,语义搜索返回的结果不仅是平面化的网页信息,而是能把各方面的相关信息组织起来的立体化信息,还能提供一定的分析预测结论。在智能客服和智能投顾领域,智能问答系统的应用主要是机器人客服。机器人客服目前的作用还只是辅助人工客服回答一些常见问题,但已能较大地节省客服部门的人力成本。
典型应用案例如美国Alphasense公司为投研人员整合碎片化信息,提供专业金融知识访问工具。AlphaSense公司的产品可以说是新一代的金融知识引擎。它从新闻、财报、研报各种行业网站等获取大量数据、信息、知识形式的“素材”,通过语义分析构建成知识图谱,并提供高级语义搜索引擎、智能问答、交互式知识管理系统、文档(知识)协作系统,以对金融知识进行更加有效的管理、搜索、使用。
2.资讯与舆情分析
资讯舆情分析的主要功能包括资讯分类标签(按公司、产品、行业、概念板块等)、情感正负面分析(文章、公司或产品的情感)、自动文摘(文章的主要内容)、资讯个性化推荐、舆情监测预警(热点热度、云图、负面预警等)。在这个场景中,金融知识图谱提供的金融知识有助于更好理解资讯内容,更准确地进行资讯舆情分析。
资讯舆情分析的应用主要在智能投研和智能监管这两个场景。目前市场上的辅助投研工具中,资讯舆情分析是必不可少的重要部分。资讯舆情分析作为通用工具更多是对海量定性数据进行摘要、归纳、缩简,以更加快捷方便地为投研人员提供信息,支持他们进行决策,而非直接给出决策结论。在智能监管领域,通过资讯舆情分析,对金融舆情进行监控,发现违规非法活动进行预警。
3. 金融预测和分析
基于语义的金融预测和分析在金融应用的主要场景包括智能投研和智能投顾。它的理想目标是能代替投资人员做投资预测,进行自动交易,但目前还只是作为投资人员的投资参考。将不同来源的多维度数据进行关联分析,特别是对非结构化数据的分析,比如邮件、社交网络信息、网络日志信息。从而挖掘和展现出未知的相关关系,为决策提供依据。典型的应用案例如美国Palantir公司提供基于知识图谱的大数据分析平台。其金融领域产品Metropolis,通过整合多源异构数据,构建金融领域知识图谱。特点是:对非结构化数据的分析能力、将人的洞察和逻辑与高效的机器辅助手段相结合起来。另一个例子如Kensho公司利用金融知识图谱进行预测分析。在英国脱欧期间,交易员成功运用Kensho了解到退欧选举造成当地货币贬值;曾准确分析了美国总统任期的前100天内股票涨跌情况。
4. 文档信息抽取
从金融文档(如公告研报)等抽取指定的关键信息,如公司名称、人名、指标名称、数值等。文档格式可能是格式化文档(word, pdf, html等)或纯文本。对格式化文本进行抽取时需要处理并利用表格、标题等格式信息。文档信息抽取的应用场景主要是智能投研和智能数据,促进数据生产自动化或辅助人工进行数据生产、文档复核等。
5. 自动文档生成
自动文档生成指根据一定的数据来源自动产生各类金融文档。常见的需要生成的金融文档如信息披露公告(债券评级、股转书等)、各种研究报告。
自动文档生成的应用场景包括智能投研、智能投顾等。它的典型应用案例如美国的Narrative Science,它从结构化数据中进行数据挖掘,并把结果用简短的文字或依据模板产生报告内容。又如Automated Insights,它为美联社自动写出了10亿多篇文章与报告。
6. 风险评估与反欺诈
风险评估是大数据、互联网时代的传统应用场景,应用时间较早,应用行业广泛。它是通过大数据、机器学习技术对用户行为数据分析后,进行用户画像,并进行信用和风险评估。
NLP技术在风控场景中的作用是理解分析相关文本内容,为待评估对象打标签,为风控模型增加更多的评估因子。引入知识图谱技术以后,可以通过人员关系图谱的分析,发现人员关系的不一致性或者短时间内变动较大,从而侦测欺诈行为。利用大数据风控技术,在事前能够预警,过滤掉带恶意欺诈目的人群;在事中进行监控,发生欺诈攻击时及时发现;在事后进行分析,挖掘到欺诈者的关联信息,降低以后的风险。
在金融行业,风险评估与反欺诈的应用场景首先是智能风控。利用NLP和知识图谱技术改善风险模型以减少模型风险,提高欺诈监测能力。其次,还可以应用在智能监管领域,以加强监管者和各部门的信息交流,跟踪合规需求变化。通过对通信、邮件、会议记录、电话的文本进行分析,发现不一致和欺诈文本。例如欺诈文本有些固定模式:如用负面情感词,减少第一人称使用等。通过有效的数据聚合分析可大大减少风险报告和审计过程的资源成本。从事此类业务的Finctech公司很多,如Palantir最初从事的金融业务就是反欺诈。其他如Digital Reasoning、Rapid Miner、Lexalytics、Prattle等。
7. 客户洞察
客户关系管理(CRM)也是在互联网和大数据时代中发展起来,市场相对成熟,应用比较广泛,许多Fintech公司都以此为主要业务方向。现代交易越来越多是在线上而不是线下当面完成,因此如何掌握客户兴趣和客户情绪,越来越需要通过对客户行为数据进行分析来完成。
NLP技术在客户关系管理中的应用,是通过把客户的文本类数据(客服反馈信息、社交媒体上的客户评价、客户调查反馈等)解析文本语义内涵,打上客户标签,建立用户画像。同时,结合知识图谱技术,通过建立客户关系图谱,以获得更好的客户洞察。这包括客户兴趣洞察(产品兴趣),以进行个性化产品推荐、精准营销等。以及客户态度洞察(对公司和服务满意度、改进意见等),以快速响应客户问题,改善客户体验,加强客户联系,提高客户忠诚度。
客户洞察在金融行业的应用场景主要包括智能客服和智能运营。例如在智能客服中,通过客户洞察分析,可以改善客户服务质量,实现智能质检。在智能运营(智能CRM)中,根据客户兴趣洞察,实现个性化精准营销。国外从事这个业务方向的Fintech公司很多,如Inmoment,Medallia,NetBase等。
四、确定竞品(产品咨询收集、选择服务/目标用户相同或类似的产品)
五、竞品对比(多种分析方法)
1. 商业模式异同
2. 业务/产品模式异同
3. 运营及推广策略
六、总结
1. 市场巨大,具有商业价值,发展形式乐观
2. 技术支撑发展,但技术不成熟,同时技术研发成本高,核心技术被巨头掌握
3. 市场存在很多可能性,各个行业都有很大的潜力和发展空间,不被巨头垄断