2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于9月21日-22日在青岛召开。何晓冬博士将出席大会并担任视觉语音语言多模态论坛共同主席。
何晓冬,京东集团技术副总裁,IEEE Fellow,京东人工智能研究院常务副院长,深度学习及语音和语言实验室的负责人,并担任华盛顿大学(西雅图)、香港中文大学(深圳)和同济大学兼职教授,及中央美术学院荣誉教授。曾在IEEE、ACM、ACL、AAAI等学会的期刊和学术会议担任编委、组委或领域主席。主要从事人工智能领域,包括深度学习、自然语言处理、语音识别、计算机视觉、信息检索和多模态智能等方面的研究。
深度学习方法在图像和语音处理上已经有了优异表现。而在自然语言处理领域,虽然我们也取得了一些激动人心的进展,但是更深层次的问题还有待突破。语言是人类独有的智慧,相信在未来的某一天,人工智能也能像人一样做到对语言有充分的理解力。要做到这一点,何晓冬博士认为自然语言处理技术可从语言理解和语言生成两个视角进行更加深入的研究,而更具挑战的人机对话问题不仅是一个语言理解与生成的问题,还包括了博弈与决策,并期待学术界和产业界携手,基于大规模实际应用场景和数据,在长文本创作、情感智能、多模态智能和对话智能等四个重要方向产生新的技术突破,在智能客服、智能零售、融媒体、智能用药与医疗服务、智能咨询与辅助决策等方面带来产业提升。
让人工智能理解人类语言
自然语言理解领域中有两个比较核心的问题。一个是语义表征,比如通过深度神经网络从自然语言中抽取出语义并将其投影到一个连续的语义向量空间。另一个是知识图谱,比如用一个图来表示结构化的知识,图中节点代表了重要的物体和实体,连线描述了实体间的关系。获得了知识图谱之后,就可以进行知识推理和知识拓展等更多的研究。而针对这些核心问题的算法和模型将进一步支持语义匹配、搜索、推荐、文本分类、语义解析、机器问答等各种应用。
让人工智能用人类能理解的方式表达
我们对于人工智能有着越来越高的期望,希望它不仅能理解自然语言,更能生成或者说创作自然语言。现在人工智能可以用多种方式来生成人类可理解的内容,比如可以写诗、写文案、整理文本摘要,甚至可以创作一个菜谱,机器翻译也可大致看成是整合了语言理解与语言生成的一个系统,而基本的人机对话系统也可看成在理解人的意图后,生成合适的回复。在最近几年,基于深度学习技术,我们在上面这些语言理解与生成问题上都取得了比较明显的进展。
自然语言处理新的突破在哪里
何晓冬博士预测,自然语言处理这个研究领域在未来可能会从文本创作、情感智能、多模态智能和对话智能等多个方向得到突破。首先是对于长文本内容的创作,要具备写作逻辑。人工智能需要确立一个模型,使得主题、子主题的结构可以展开,并且能够在模型上得到体现,最后才能真正写出一篇前后逻辑严谨,有意义的文章。
其次是要理解用户的情感,知道用户的诉求,生成共情的对话,配合情感进行相应表达。同时,多模态学习也是一个新兴的领域,包括从基础的跨模态语义表征学习,比如语言-视觉多模态预训练,到多模态知识获取和知识推理,再到多模态智能的应用,比如图像到文字描述、文本到图像生成、视觉-文本问答、语言-视觉导航等等。多模态智能技术将之前各个子领域的相对孤立的研究进行融合,并将驱动一系列新技术的研究。
最后是实现大规模复杂任务下的人机对话。这样的人机对话技术不仅包含语言理解与应答、还需要具有全局优化的博弈与决策能力,比如在复杂场景下服务用户时如何能达到用户体验与服务成本或效率的双赢。为了实现这样的目标,我们不但要让人机对话系统承载情感分析与多模态信息处理的能力,还可以探索增强学习在自然语言中的应用,让机器自动从对话数据中学习到最优的策略。有些研究人员还提出了新的迁移学习和主动学习的模型,包括把一个模型从一个领域迁移到另外一个领域,以及基于少量样本就能有效学习,从而让模型在一个新领域迅速达到很高的水平。
语言理解作为一个核心技术,就是能够沟通人和世界的交流,我们希望机器能够更进一步的进化到高级智能和通用智能,能够自动学习和自我创新,然后在一些特定领域甚至比人做的更好,并能够规模化工程化,从而为用户带来更好的体验,对产业带来效率的提升。何晓冬表示“我们的终极目标是用人工智能帮助人类更好的连接这个世界。”