内容来源:2017年7月8日,北京大学计算机科学技术研究所万小军博士在“CCF-GAIR 2017 全球人工智能与机器人峰会——AI+专场”进行《机器写稿技术与应用》演讲分享。IT 大咖说(ID:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。
阅读字数:2685 | 7分钟阅读
嘉宾演讲视频及PPT链接,请点击:http://t.cn/EUFX5wc
摘要
全球人工智能与机器人峰会CCF-GAIR大会上,嘉宾分享了机器写稿的背景和现状,对于未来,他认为机器写稿不光是在媒体行业,也会跟一些游戏行业和情报行业合作。不过,他认为让机器学会推理和归纳,写出真正的深度报道是最难的,但这也是下一步研究的目标。
机器写稿现状——国外
机器写稿这件事几年前在国外已经开始了。国外成立了多家知名公司,如ARRIA、AI、NARRATIVESCIENCE等。核心技术为自然语言生成引擎,主要应用于天气预报、空气质量、医疗报告、财经、体育等领域的写作。AI公司已经为美联社等多家单位生成数亿篇新闻报道,NARRATIVESCIENCE则持续为FORBES网生成新闻报道。主要面向的是英文和一些西方语言。
机器写稿现状——国内
随着人工智能技术的发展,机器写稿近几年在国内也逐渐受到关注。有一些媒体单位和学术机构进行合作,推出一些写稿机器人。还有一些互联网巨头,像百度、微软、腾讯等单位也在自己研发机器写稿技术。写稿类型主要侧重于体育、财经、民生和娱乐新闻等这些领域。
原创VS二次创作
我们认为机器写稿有两种方式,一种是原创,另一种是二次创作。原创是没有文字稿件,只有结构化的数据。我们基于结构化数据去生成新的稿件。例如天气预报、空气质量报告、财报、产品说明书等等。
二次创作则是基于已有的稿件内容来创作新的稿件。例如新闻综述、新闻摘要、新闻改写等等。
机器写稿所涉及到的NLP技术
两种不同的创作方式所依赖的技术也是不一样的。一种是自然语言生成技术,一种是自动摘要技术。自然语言生成技术直接从结构化数据或语义表达来生成自然语句,适用于原创。自动摘要技术基于已有文本素材来构建稿件,适用于二次创作。
还有一些其它的相关技术,例如文本信息推荐技术。就是我们在写稿件的时候想要引用名人名言、唐诗宋词,这时它就会做一个推荐,写到这里的时候自动插入名句。
还有文本复述技术。由于涉及到版权问题,如果直接把原始的内容复制过来会有抄袭的嫌疑,所以这时就需要做复述,把同样的语义通过不同的语言去表达出来。
应用于传统媒体 VS 自媒体
不同应用单位对于稿件的要求是不一样的。传统的媒体单位对稿件的要求非常严格,对错误零容忍,必须要人工审核后再进行发布。
对于自媒体来说,对内容的要求比较高,但可以容忍部分质量问题。例如部分语句连贯性不好、有少量错别字等。
不同的质量要求决定了对机器写稿方法的不同选择。
机器写稿人 VS 作者
机器人和记者之间目前应该是一种分工协作的关系。机器人写稿的速度快,不知疲倦,善于写简讯。但机器人只能进行低层次、重复性的劳动。而记者具有高度思维,能写深度报道。可以进行高层次、有创造性的劳动。
记者在写稿件的时候是能够清楚地知道自己所写的内容,但机器人在写稿件的时候虽然他把每一个句子都写了出来,但实际上并不能理解自己所写的内容。
我们在机器写稿方面的研究和应用
我们做了很多基础研究,包括自动文摘、自然语言生成等技术。另外也做了很多应用技术研究,像新闻资讯自动生成、新闻综述自动生成以及用户评论的自动生成。
新闻资讯自动生成
我们的写稿输入是结构化的数据以及可能有的文字素材。会生成长度可控的稿件,可以生成几十字的短讯,也可生成上千字的长篇资讯。另外还是多领域的,有体育、民生和娱乐。
体育赛事简讯自动生成
我们会从网上抓取一些体育赛事的数据,基于这些数据做数据分析,再做文档规划和语句的实现。就能够生成一些简单的赛事报道。报道很短,在几十字左右。而为了让报道更加生动,我们对于同样的消息会有不同的语言进行表达。
体育赛事长篇报道自动生成
有一个很重要的素材叫体育的直播文字。每当有著名的梯云比赛的时候都会有文字直播,通过视频直播转成文字。文字直播中通常包含了主持人对比赛精彩细节的描述。通过机器学习手段来把精彩描述挑选出来,最终放到报道中。这个报道就比较长,能够达到上千字以上。
体育直播很常见,涵盖了所有的重要比赛。它的特点首先就是信息丰富,体育直播文字涵盖比赛所涉及的任何重要信息。其次是灵活性好,不同比赛能构建不同风格的新闻。第三点就是实时性好,在比赛任一时间点都能及时构建并发布新闻。
生成新闻报道的过程首先是对直播文字进行语句的排序,再利用机器学习的手段进行语句的智能选择,最后生成一个平均长度超过1000字的赛事报道。
娱乐新闻自动生成
可以基于微博生成娱乐新闻。现在明星经常会发微博,一些微博可以构成我们的娱乐新闻。所以我们会有一个机器学习的手段去自动判别明星发的每一条微博是否有可能成为新闻,有没有新闻价值。继而判断微博下的评论哪一些具有价值,然后把微博和它的评论以及相关的背景信息组合在一起,形成一条娱乐新闻。
新闻综述自动生成
新闻综述自动生成是根据同一事件的多篇新闻报道,自动生成篇幅较长的事件综述。
因为要构成综述,所以不是以句子为单位,而是以一个子话题为单位。对新闻进行子话题的划分,得到其中的一个子话题。每个子话题对应一个段落,最后对子话题进行重要性的排序。最后对子话题进行选择然后合并,最后得到一个完整的事件综述。这个综述的长度可达上千个字节。
用户评论自动生成
除了生成事实型的新闻之外,我们也尝试去生成用户的评论。这个主要是以产品评论为研究的对象,我们采用的是一个深度学习的模型。
我们在机器写稿方面的应用
我们分别与今日头条、南方都市报、广州日报合作推出了小明、小南和阿同写稿机器人。
小明写稿机器人基于体育赛事数据与赛事直播文字既能写短讯,又能写上千字的长篇报道。
小南写稿机器人为南方都市报APP写民生新闻与两会新闻。
写稿机器人阿同是与广州日报合作推出的写稿机器人,两会期间进行各类工作报告的热词与关键数据分析与解读。
趋势展望
机器写稿在各行各业的应用将越来越广泛,不光是媒体写新闻会用到,其它行业也会用到。
我们希望让稿件具有态度和立场,更有人性化。通过归纳和推理,写出深度报道。
今天的分享就到这里,谢谢大家!
编者:IT大咖说,转载请标明版权和出处