AI时代的到来,增强了硬件产品的人机交互、语音交互以及AR、VR交互。语音交互是交互方式在智能领域的一种探索。语音交互区别与界面交互在越来越多的场景应用,有声阅读、语言搜索、在线客服、智能家居、智能机器人、语音助手、可穿戴设备、语音翻译等。
目前的语音技术能力主要包含了四个方面:语音唤醒、语音识别、语音理解和语音合成
语音唤醒
语音唤醒指在待机的状态下,用户说出特定指令(唤醒词)使设备进入工作状态或完成某一操作;当前更多应用于手机、可穿戴设备、车载设备、智能家居等。
1、常见两种唤醒方式:“一呼一答”和“唤醒词+命令词”;即多轮对话(一次唤醒、一个任务、多轮交互)和连续对话(一次唤醒、多个任务,无需唤醒)
2、唤醒词设计原则:易唤醒、低误唤醒 、品牌性、易记易读性
3、华为和苹果手机语言助手唤醒交互:
· 手机的语音助手都是基于特定的人识别,非用户本人无法用同样的唤醒词唤醒手机语音指令,
· 采取的唤醒方式均为“一呼一答”
· 唤醒词设计,华为的“我的荣耀”基于品牌调性,但易读性不强
· 在语音交互过程中,用问答的方式给到用户强反馈,单纯的铃声不足以引起用户触达,通常情况下用户使用语音是在不方便查看手机或者有其他干扰的情况下的。
语音识别
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
1、语音识别包括两个阶段:训练和识别。
训练阶段:收集大量的语音语料,经过预处理和特征提取后得到特征矢量参数,最后通过特征建模达到建立训练语音的参考模型库的目的。
识别阶段:将输入语音的特征矢量参数和参考模型库中的参考模型 进行相似性度量比较,把相似性最高的输入特征矢量作为识别结果输出。
2、语音识别对象:特定人识别(手机语音助手,设定只识别手机用户个人的声音)、非特定人识别(语音搜索,识别搜索词)。
特定人识别是指识别对象为专门的人,非特定人识别是指识别对象是针对大多数用户,一般需要采集多个人的语音进行录音和训练,经过学习,达到较高的识别率。
3、基于现有技术开发嵌入式语音交互系统,目前主要有两种方式:
一种是直接在嵌入式处理器中调用语音开发包;另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大,计算复杂,需要占用大量的处理器资源,开发周期长;
第二种方法相对简单,只需要关注语音芯片的接口部分与微处理器相连,结构简单,搭建方便,微处理器的计算负担大大降低,增强了可靠性,缩短了开发周期。
语音理解
语义理解是指机器能够结合上下文,自然地理解用户的需求,并能给出正确以及人性化的反馈。
语音合成
语音合成是通过机械的,电子的方法产生人造语音技术。语音合成的关键点是真人音色模拟,一致性、流畅性、稳定和有情感。
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。
TTS结构
语言处理
在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析,使计算机对输入的文本能完全理解,并给出后两部分所需要的各种发音提示。
韵律处理
为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。
声学处理
根据前两部分处理结果的要求输出语音,即合成语音。
相关阅读: