AI机器人写稿技术应用,小编要失业了?

内容来源:2017年7月8日,北京大学计算机科学技术研究所万小军博士在“CCF-GAIR 2017 全球人工智能与机器人峰会——AI+专场”进行《机器写稿技术与应用》演讲分享。IT 大咖说(ID:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。

阅读字数:2685 | 7分钟阅读

嘉宾演讲视频及PPT链接,请点击:http://t.cn/EUFX5wc

摘要

全球人工智能与机器人峰会CCF-GAIR大会上,嘉宾分享了机器写稿的背景和现状,对于未来,他认为机器写稿不光是在媒体行业,也会跟一些游戏行业和情报行业合作。不过,他认为让机器学会推理和归纳,写出真正的深度报道是最难的,但这也是下一步研究的目标。

机器写稿现状——国外

机器写稿这件事几年前在国外已经开始了。国外成立了多家知名公司,如ARRIA、AI、NARRATIVESCIENCE等。核心技术为自然语言生成引擎,主要应用于天气预报、空气质量、医疗报告、财经、体育等领域的写作。AI公司已经为美联社等多家单位生成数亿篇新闻报道,NARRATIVESCIENCE则持续为FORBES网生成新闻报道。主要面向的是英文和一些西方语言。

机器写稿现状——国内

随着人工智能技术的发展,机器写稿近几年在国内也逐渐受到关注。有一些媒体单位和学术机构进行合作,推出一些写稿机器人。还有一些互联网巨头,像百度、微软、腾讯等单位也在自己研发机器写稿技术。写稿类型主要侧重于体育、财经、民生和娱乐新闻等这些领域。

原创VS二次创作

我们认为机器写稿有两种方式,一种是原创,另一种是二次创作。原创是没有文字稿件,只有结构化的数据。我们基于结构化数据去生成新的稿件。例如天气预报、空气质量报告、财报、产品说明书等等。

二次创作则是基于已有的稿件内容来创作新的稿件。例如新闻综述、新闻摘要、新闻改写等等。

机器写稿所涉及到的NLP技术

两种不同的创作方式所依赖的技术也是不一样的。一种是自然语言生成技术,一种是自动摘要技术。自然语言生成技术直接从结构化数据或语义表达来生成自然语句,适用于原创。自动摘要技术基于已有文本素材来构建稿件,适用于二次创作。

还有一些其它的相关技术,例如文本信息推荐技术。就是我们在写稿件的时候想要引用名人名言、唐诗宋词,这时它就会做一个推荐,写到这里的时候自动插入名句。

还有文本复述技术。由于涉及到版权问题,如果直接把原始的内容复制过来会有抄袭的嫌疑,所以这时就需要做复述,把同样的语义通过不同的语言去表达出来。

应用于传统媒体 VS 自媒体

不同应用单位对于稿件的要求是不一样的。传统的媒体单位对稿件的要求非常严格,对错误零容忍,必须要人工审核后再进行发布。

对于自媒体来说,对内容的要求比较高,但可以容忍部分质量问题。例如部分语句连贯性不好、有少量错别字等。

不同的质量要求决定了对机器写稿方法的不同选择。

机器写稿人 VS 作者

机器人和记者之间目前应该是一种分工协作的关系。机器人写稿的速度快,不知疲倦,善于写简讯。但机器人只能进行低层次、重复性的劳动。而记者具有高度思维,能写深度报道。可以进行高层次、有创造性的劳动。

记者在写稿件的时候是能够清楚地知道自己所写的内容,但机器人在写稿件的时候虽然他把每一个句子都写了出来,但实际上并不能理解自己所写的内容。

我们在机器写稿方面的研究和应用

我们做了很多基础研究,包括自动文摘、自然语言生成等技术。另外也做了很多应用技术研究,像新闻资讯自动生成、新闻综述自动生成以及用户评论的自动生成。

新闻资讯自动生成

我们的写稿输入是结构化的数据以及可能有的文字素材。会生成长度可控的稿件,可以生成几十字的短讯,也可生成上千字的长篇资讯。另外还是多领域的,有体育、民生和娱乐。

体育赛事简讯自动生成

我们会从网上抓取一些体育赛事的数据,基于这些数据做数据分析,再做文档规划和语句的实现。就能够生成一些简单的赛事报道。报道很短,在几十字左右。而为了让报道更加生动,我们对于同样的消息会有不同的语言进行表达。

体育赛事长篇报道自动生成

有一个很重要的素材叫体育的直播文字。每当有著名的梯云比赛的时候都会有文字直播,通过视频直播转成文字。文字直播中通常包含了主持人对比赛精彩细节的描述。通过机器学习手段来把精彩描述挑选出来,最终放到报道中。这个报道就比较长,能够达到上千字以上。

体育直播很常见,涵盖了所有的重要比赛。它的特点首先就是信息丰富,体育直播文字涵盖比赛所涉及的任何重要信息。其次是灵活性好,不同比赛能构建不同风格的新闻。第三点就是实时性好,在比赛任一时间点都能及时构建并发布新闻。

生成新闻报道的过程首先是对直播文字进行语句的排序,再利用机器学习的手段进行语句的智能选择,最后生成一个平均长度超过1000字的赛事报道。

娱乐新闻自动生成

可以基于微博生成娱乐新闻。现在明星经常会发微博,一些微博可以构成我们的娱乐新闻。所以我们会有一个机器学习的手段去自动判别明星发的每一条微博是否有可能成为新闻,有没有新闻价值。继而判断微博下的评论哪一些具有价值,然后把微博和它的评论以及相关的背景信息组合在一起,形成一条娱乐新闻。

新闻综述自动生成

新闻综述自动生成是根据同一事件的多篇新闻报道,自动生成篇幅较长的事件综述。

因为要构成综述,所以不是以句子为单位,而是以一个子话题为单位。对新闻进行子话题的划分,得到其中的一个子话题。每个子话题对应一个段落,最后对子话题进行重要性的排序。最后对子话题进行选择然后合并,最后得到一个完整的事件综述。这个综述的长度可达上千个字节。

用户评论自动生成

除了生成事实型的新闻之外,我们也尝试去生成用户的评论。这个主要是以产品评论为研究的对象,我们采用的是一个深度学习的模型。

我们在机器写稿方面的应用

我们分别与今日头条、南方都市报、广州日报合作推出了小明、小南和阿同写稿机器人。

小明写稿机器人基于体育赛事数据与赛事直播文字既能写短讯,又能写上千字的长篇报道。

小南写稿机器人为南方都市报APP写民生新闻与两会新闻。

写稿机器人阿同是与广州日报合作推出的写稿机器人,两会期间进行各类工作报告的热词与关键数据分析与解读。

趋势展望

机器写稿在各行各业的应用将越来越广泛,不光是媒体写新闻会用到,其它行业也会用到。

我们希望让稿件具有态度和立场,更有人性化。通过归纳和推理,写出深度报道。

今天的分享就到这里,谢谢大家!

编者:IT大咖说,转载请标明版权和出处

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容