从智障到智能 光语音识别就花了100年

姓名:芦凯      学号:17011210546

转载自:中关村在线,原文链接:http://mobile.zol.com.cn/665/6656792_all.html#p6657840

【嵌牛导读】浅析语音识别技术。

【嵌牛鼻子】语音识别

【嵌牛提问】语音识别技术在现在有哪些应用?

【嵌牛正文】

离人工智能统治世界还有多远

前不久,中文版Bixby开始公测,虽然这并不是Bixby的首次发布,但却意味着新的语音巨头开始打入中国市场。在我们的测试中发现,Bixby拥有优良的识别率,可以实现语音开锁、语音文本转换,并且用户可以通过语音对手机进行电话短信、软件控制、第三方内容接入等各种各样的操作。从某种意义上来说,手机已经实现听懂人的语音。

当我们看到科幻电影中能与人类对话的人工智能时还会感到十分高科技,其实语音助手早已悄无声息的进入了我们的生活,以至于当你看到现在优秀的语音产品时并不会感到陌生。在我们大多数人的印象中,语音助手仍是比较“弱智”的存在,其实这点也并不能否认。因为机器没有智慧,它不能像人一样思考,或者说它还没有一个足以令它思考的庞大体系。但同样不可否认的是,语音识别方面的人工智能已经拥有相当大的规模。

举个非常常见的例子,现在的网络电视大多都支持语音搜索功能,这给电视的使用带来了极大的便利。因为电池的输入设备仍旧是遥控,其输入效率无法与键盘匹敌,但支持语音的话,只要对电视输入语音命令,就可以完成交互,十分便利。另外,语音识别交互也为盲人的设备使用带来了福音。其作用不可小觑。

相信有不少没关注过语音识别功能的读者都有这样的疑问:兄弟,你开玩笑呢吧?无聊时唤出Siri扯两句,还有家里的智能音箱,就普普通通的语音助手嘛,真有你说得怎么玄乎?而且智能音箱的售价都不贵嘛,高科技的话怎么会这么便宜?还别说,开发语音助手还真不是个小工程。而且通常来说,语音助手难以靠本身变现,至少在你用语音听写时,输入法厂商并没向你收费。所以没有雄厚的资金支持是很难坚持到营收的那一天的。

现在我们去看语音助手的厂商宣传,都在说我们的准确率达到了百分之多少。目前来说,准确率达到90%以上已经相当不错。虽然现在已经有了这么高的准确率,但我们还是感觉语音助手有些鸡肋,这与语言的复杂性、第三方接口的完善性有很大关系。本期发烧学堂,我们就来聊一聊语音识别的实现原理,以及语音识别的现状和未来发展,设想一下人工智能什么时候会统治世界。

语音识别实现原理:数据库

概括的说,语音识别的原理其实并不难理解,大面上和指纹识别的原理相同:设备收集目标语音,然后对收集到的语音进行一系列处理,得到目标语音的特征信息,然后让特征信息与数据库中已存数据进行相似度搜索比对,评分高者即为识别结果。然后通过其他系统的接入来完成设备的语音识别功能。

如果你对语音识别的兴趣不高,那么知道这样的大致原理已经足够。事实上,语音识别的过程是相当复杂的。最直接的原因就在于语音的复杂性。指纹识别只要录入的指纹信息与数据库中的已存信息匹配就可以完成识别,这个数据库包含的数据只有几个指纹信息而已。但语音就完全不同了。

《康熙字典》容纳了汉字47035个,由当时的三十多位著名学者历时六年编撰而成。而汉语可不仅仅是孤立的汉字,语言中有升降调,有断句情感,有不同语义的不同理解。同时,全国各地可都不是说普通话的,方言也有很多种,想要建造一个完善的语言数据库难度可想而知。汉语的复杂性正是Bixby中文版要晚于英文版发布的原因。

庞大的语言数据库难以放置于移动端,这也是几乎所有手机语音助手使用时需要联网的原因。语音识别发展到现在也不是没有离线版,但我们不难发现,离线版的准确率是要远远低于在线版的。另外,刚才我们提到不少语音厂商都宣称准确率达到90%以上,这可以说是十分了不起的,不夸张的说,这时候每提升1个百分比的准确率,都是质的飞跃。这不仅要相当完善的数据库,满足这样的准确率还得效率较高的识别提取算法和自学习系统。

当然这样的数据我们要以辨证的眼光来看,俗话说,一句话百样说,汉语言可谓博大精深;而且厂商给出的准确率数据的测试很难具备广泛性,所以有些用户在使用语音识别功能时发现它还很“弱智”,实属正常。

语音识别实现原理:算法和自学习

刚才我们提到了识别提取算法和自学习系统,在这里我们不妨简单了解一下它们的工作过程:首先语音识别系统对收集到的目标语音进行预处理,这个过程就已经十分复杂,包含语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等。之后对处理的语音进行特征提取。

我们知道,声音的本质是震动,它可以由波形表示,识别则需要对波进行分帧,多个帧构成一个状态,三个状态构成一个音素。英语常用音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。之后通过音素系统合成单词或者汉字。当然,之后的匹配和后期内容处理也需要相应算法来完成。

自学习系统则更多的是针对数据库来说。将语音转换成文本的语音识别系统要有两个数据库,一是可与提取出的信息进行匹配的声学模型数据库,二是可与之匹配的文本语言数据库。这两个数据库需要提前对大量数据机型训练分析,也就是所说的自学习系统,从而提取出有用的数据模型构成数据库;另外,在识别过程中,自学习系统会归纳用户的使用习惯和识别方式,然后将数据归纳到数据库,从而让识别系统对该用户来说更智能。

更进一步总结一下整个识别过程:对采集的目标语音进行处理,获取包含关键信息的语音部分——提取关键信息——识别最小单元字词,分析规定语法排列——分析整句语义,将关键内容断句排列,调整文字构成——根据整体信息修改出现轻微偏差的内容。

语音识别现状和未来

人工智能能在这两年爆发并不是一朝一夕的事,语音识别也不例外。从最初的语音识别雏形,到现在高达90%以上准确率,已经有大约100年的历史。Radio Rex玩具狗生产于上个世纪20年代,这款玩具狗在被呼叫时可以弹出来,被视为语音识别的鼻祖。真正意义上的语音识别研究始于上个世纪50年代,AT&T Bell实验室打造的Audry系统实现了十个英文数字的语音识别。

而最近大热的NPU神经网络,早在60年代就已经用于语音识别了。将大词汇量、连续语音、非特定人三大特性基于一身的Sphinx系统诞生于80年代末。90年代以来则是语音识别发展的绝佳时期,政府机构对语音识别技术开始重视,许多著名公司都开始在这方面投入巨资,一大批高水平研究机构都加入了语音识别的研究领域,一时间成绩显著。

时至今日,语音识别已经有了突破性进展。2017年8月20日,微软语音识别系统错误率由5.9%降低到5.1%,可达到专业速记员的水平;国内语音识别行业的佼佼者科大讯飞的语音听写准确率则达到了95%,表现强悍。国内诸如阿里、百度、腾讯等大公司,也纷纷发力语音识别,前景一片看好。

并且,语音识别系统也不会只仅仅用于之前提到的手机交互、智能音箱命令,在玩具、家具家居、汽车、司法、医疗、教育、工业等诸多领域,语音识别系统将发挥不可忽视的作用。毕竟在当下人工智能刚刚起步的时代,在设备无法便捷的探知人类想法之前,语音交互都是最高效的人机交互方式。

写在最后

看到这里,相信大家已经对语音识别有了一个大致的了解。我们在手机、智能音箱上看到的语音识别,只是语音识别领域表现出的冰山一角,而我们在未来也将会看到有更多形式的语音识别用于日常生活的各个方面,比如语音识别系统配合无人驾驶汽车,只要你跟汽车说去哪,汽车就可以自动载你达到目的地。

人工智能什么时候会统治世界,这个问题确实不好说。人工智能已经掌握了自然语言的本领,即便相对于人类的语言能力还很初级,但已经可以依据程序给出相应内容,这就具备了拥有智慧的条件,从某种意义上说,人类智慧就是由一项项基础功能集成而来的。但显然这不是我们要担心的问题,期待并享受人工智能带来的便利就好了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容