能让我们和设备对话的基本原则。

“设置一个早上7:15的闹钟”

“好，呼叫赛尔马马丁”

“不是，设置一个早上7:15的闹钟”

“很抱歉，我帮不了你”

“唉”

最终只能手动设置闹钟。

我们的声音多样复杂并且多变，就算是人与人之间，语音指令的传达也总是比数据处理更容易出现问题，更不用说人机之间了。我们的思考方式、文化交流、俚语的使用和意图理解，所有这些差异都会影响对语言的识别和理解。

那么，设计师和工程师们如何战胜这些挑战？我们该怎样建立用户和AI之间的信任？语音交互设计体现出了它的价值。

语音交互界面是以视觉、听觉和触觉为主要或补充的交互界面形式，它能让人和设备之间用语言进行互动。简单说，语音交互可以是任何形式，从设备听见你的声音后发出的灯光闪烁到汽车的娱乐控制台。请记住，语音交互界面不一定需要视觉元素，可以是纯听觉和触觉组成。（比如，震动）

尽管语音交互（VUI）包括了很多东西，但是它们都遵循了基本交互规则以保证可用性。我们会探究这些基本规则来确保当你作为一个用户时，你可以仔细研究这些日常交互，当你作为设计师时，你可以构建更好的体验。

发现——语音交互的限制，依赖性和使用案例

我们和世界互动的方式很大程度会受到科技、环境和社会制约的影响。比如，信息处理的速度，数据转化为行为的准确度，用来和数据交流的语言/方言以及行为的接收（无论是我们自己还是其他人），这些都会影响交互方式。

在我们投身设计工作之前，我们需先定义构建语音交互的上下文环境。

确定设备类型

不同的设备类型影响了划分语音交互范围的模式和输入方式。

TV-Android Voice UI

手机

苹果手机；谷歌的pixel；三星

网络连接——移动网络；wifi；配对设备

上下文环境对语音交互有着巨大的影响

用户习惯使用语音互动

支持视觉、听觉和触觉的交互反馈

交互方法已经通过很多典型案例形成了一种规范化标准

穿戴设备

特定的使用案例，比如智能手表，健身手环，或是智能跑鞋

网络连接——移动网络；wifi；配对设备

用户可能会习惯使用语音互动，但是这类设备的交互规则没有被标准化

支持视觉、听觉和触觉的交互反馈，尽管有些设备在没有明确的用户交互的情况下稍微被动一些

通常通过连接设备进行用户交互行为和数据消耗

固定连接设备

台式电脑；带屏幕的设备；温度调节装置；智能家居；音响系统（sounds system）；电视

网络连接——有线网络；wifi；配对设备

用户习惯在同样的地点使用这些设备并形成习惯性的基本原则

两个相似设备之间的语音交互的类似标准方法（比如，台式电脑、可连接智能家居，像google家居、亚马逊Alexa一类的，再有就是智能温度调节装置）

非固定电子设备（手机除外）

笔记本电脑；平板设备；应答器，车载娱乐系统

网络连接——无线连接；有线网络（不常见）；wifi；配对设备

主要输入模式并不是语音

通常情况下，相似设备之间没有规范的语音交互方式

创造用例模型

语音交互的第一、第二和第三用例到底是什么？智能设备只有一个主要的用例吗（比如健身追踪器）？或是它有没有用例的混合呢（比如智能手机）？

创造一个用例模型是很重要的，它会帮助你知道为什么用户愿意和设备互动。他们互动的主要方式是什么？次要方式是什么？什么样的交互方式有了会很好？什么样的交互方式是必须存在的？

你可以为每一种交互方式创造一种用例。当应用到语音交互的时候，用例模型会帮你了解用户现在是如何使用的或者有意向使用语音和设备进行互动，还包括他们会在哪里使用语音助手。

对交互模式进行排序

如果你用用户研究的方式去获得使用案例（无论是定量或者定性研究），那么通过对交互透视模型的排序来让你的分析有理有据是很重要的。

如果有人告诉你：”OMG，如果我可以和我的电视说话那岂不是很酷，我会让他随时更换频道。”这时你真的需要进行更深层次的挖掘，用户真的会使用这个功能吗？他们了解那些限制条件吗？在使用这项功能的时候，他们是否真的了解自己的真实倾向呢？

“作为一个设计师，你对用户的了解必须多于他们对自己的了解”

在用户有多种交互方式可选的时候，你必须问自己他们是否会选择这一种方式。

比如，让我们来测试下用户是否会使用语音和他们的电视进行互动。在这种情况下，假设语音交互是多种交互方式中的一种是很保险的。

用户可以使用多种工具完成交互任务：遥控器，配对智能手机，游戏手柄，或者已连接的输入设备。因此，语音并不必须成为默认的交互方式，而是很多交互方式中的一种。

所以现在的问题是：在什么情况下用户会用语音交互，把它作为交互的主要方式？如果不是主要方式，那会是第二第三选择吗？这个问题会推动你的假设和交互假说的研究进一步发展。

列举技术限制

将我们的语言转化为行为是一个非常难的技术挑战。时间不受限制，网络畅通的情况下，经过训练的调试好的计算机引擎可以顺利接收我们的语言，并经过解析后触发合适的行为。

但不幸的是，我们生活在一个网络连接并不总是通畅的世界，也没有无限的时间。我们要求语音交互要像传统交互方式（比如视觉和触觉）一样快速即时，即便语音引擎需要更加复杂的运算和预测模型。

下面有一些样例流程阐述了我们的语言被识别后都发生了什么。

正如我们看到的，有大量的模型需要在词汇、口音和多变的声调等方面被持续地训练。

任何一种语音识别系统都有属于自己的一套技术限制。在构建语音交互设计的时候，把那些限制条件纳入考虑是必须的。

分析一下以下几种类别：

网络连接级别——设备总是可以连接到网络吗？

处理速度——用户想要他们的语言被实时处理吗？

准确度——在数据处理的准确度和速度上要怎么权衡取舍？

语言模型——现有的模型被训练得怎么样？它们可以准确处理完整的句子或者短语吗？

应急计划——如果用户的语言没能被识别，技术上的应急计划是什么？用户可以使用其他的交互方式吗？

不准确的结果——一个不正确的经过处理的执行命令是否会引起不可逆的行为？我们的语音识别引擎成熟到可以避免发生严重的错误吗？

环境测试——语音引擎是否在多种环境下测试过了？比如，如果我要构建一个车载娱乐系统，我需要预期比温度调节器多得多的背景干扰。

非线性

而且，我们需要考虑用户以非线性的方式和设备进行交互。比如，如果我想在网站上订一张飞机票，那么我必须要关注网站上出现的信息流：选择目的地，选择时间，选择机票数量，浏览其他选项等。

但是，语音交互有个更大的挑战。用户可以说：”我想飞去旧金山上商业课。”现在，语音交互需要提取有关用户的所有信息以便呼出已有的机票预订应用。逻辑指令可能会不准确，VUI的责任就是把相关信息（通过语音或者视觉补充）从用户身上提取出来。

语音输入交互

既然我们明白了限制条件、依赖性和用例，我们可以深入一些到真实的语音交互当中。首先，我们必须清楚设备怎么知道我们呼叫它。

在更多的上下文环境中，下面的图表阐明了一个基本的语音交互流程

举个例子

触发机制

语音输入触发方式一共有四种类型：

声音触发——用户会使用短语来提示设备开始处理用户的语言（比如，“ok，google”）

触觉触发——点击按钮（真实的按钮或界面中的按钮）或者切换遥控（比如，麦克风的icon）

肢体动作触发——在传感器面前挥挥手

设备自己触发——某个事件的发生或者提前预知的设置会触发设备（比如车祸或者任务提醒）

作为设计师，你必须明白哪种触发方式和你的用例是相关的，把这些触发形式按相关程度进行优先级排序。

引导提示

通畅情况下，当设备被唤醒，它需要有一个听觉、视觉或者触觉的提示给用户。

这些提示需要遵循以下几点可用性原则：

即时——当选择了一个合适的触发机制之后，出现的提示需要尽可能地快，即使这意味着需要打断现在的行为（只要打断这个行为不是毁灭性的）

言简意赅——提示应该是即时短暂的，特别是日常使用的设备。比如，表示答应的嘟嘟声会比“好的，贾斯汀，现在需要我做什么呢？”这种表达更有效，引导提示语越长，用户的语言越会和设备提示产生冲突。这个原则也适用于视觉提示。设备需要很快地转化成倾听状态。

清晰的开始——用户应该清楚地知道他们的声音什么时候被录入的。

一致性——引导提示应该始终保持一致，视觉或听觉反馈的差异会让用户产生困惑。

独特性——引导提示词需要和设备一般情况下的声音和视觉有所差别，也绝不会被用在其他上下文中。

补充提示——如果可以的话，利用多种交互媒介方式呈现提示（比如，哔哔声，灯光的变化，和屏幕对话）

初始提示——对于第一次使用的用户，或者当用户手足无措的时候，那么设备可以呈现初始词或者给出建议来进行语音交流。

交互反馈

反馈对于一个成功的语音交互界面设计是至关重要的。当设备提取并处理用户的语言时，反馈会让用户获得一致并即时的确认。反馈也能够让用户采取正确积极的行动。

下面有几条用户体验交互原则同样适用于VUI反馈：

实时响应的视觉元素——这种视觉反馈在设备自带的语音交互中最常出现（比如，手机）。它创造了多种声音维度的认知反馈：音高，音色、音强和音长，它们都可以根据不同的感应实时变化颜色和图案。

声音重放——重放声音以确认对语言的解析

实时的文字反馈——当用户说话的时候，文字反馈要实时出现

输出文字——在用户结束说话的时候，文字反馈会被转化和修正，它是用户语音被转化和解析成行为之前正确处理数据的第一层。

不出现在屏幕上的视觉提示（灯光，图案灯）——上面提到的感应式视觉不仅仅出现在数字屏幕上。这些响应式图案也可以出现在led灯或者其他图案灯上。

结束提示

结束提示意味着设备不再录入用户声音而开始进行处理命令了。引导提示的很多原则可以适用于结束提示（即时、简短、清晰、一致性和独特性）。然而，除此之外还有以下原则：

足够的时间——确保用户有足够的时间完成他们的指令

适应的时间——时间分配应该适应使用案例和预期的回答。比如，如果用户问了一个“是”或“不是”的问题，那么结束的提示应该在最后一个音节之后预期一个合理的停顿。

合理的停顿——在最后一个声音被录入后，是否有合理的停顿？这很难计算，但是它同样依赖于交互用例。

对话交互

像“打开我的闹钟”这种简单的指令不需要和很长的对话，但是更复杂的命令则需要多轮对话。不像传统的人与人之间的互动，人与AI之间的交互需要多层次的确认、冗余的分析和矫正。

更复杂的指令或者重复的对话通常需要多次确认以保证准确性。复杂事件的确认则是成倍地增加当用户不确定自己要问什么或者不知如何发出指令的时候。所以，VUI设计师的职责是去破解消息让用户提供更多的上下文。

积极性——当AI能理解用户语言的时候，它需要用积极的消息回应用户，这条消息同时也能确认用户的指令。比如，人工智能应该说“好的，我会把灯打开的”而不是单纯的“好的”或是“你确定你想让我把灯打开吗”。

纠正——当AI不能理解用户意图的时候，则需要用纠正的选项回应用户。这可以引导用户选择另一种方式重新开启新一轮对话。

共情——当人工智能不能满足用户需求的时候，它应该对缺乏理解而承担责任，并能提供用户其他可选项。同理心对建立亲密关系是很重要的。

充满人性的用户体验

给予语音交互人的特征为人和设备之间建立了一种关系。这种人性化可以用很多方式体现出来：灯的图案、形状和弹跳，抽象球状图案、电脑生成的语音或声音。

这种关系在用户和设备之间建立了更亲密的连接，这种连接可以跨越有着相似操作的平台。（比如，google助手，亚马逊的Alexa和apple家的Siri）

人格——为交互添加了新的维度，让真实的人性和用户产生共鸣，这也缓和了不正确的语言处理带来的负面影响。

积极性——积极性会鼓励用户进行重复交互。

信心和信任——鼓励用户进行更多额外的互动或进行更加复杂的对话，因为用户十分相信设备的输出是积极的并且有价值的。

端对端的动态交互

语音交互应该是流畅并动态的。当我们和人交流的时候，我们通常会使用很多面部表情，声调变化，肢体语言和动作。我们的挑战是在数字环境中捕捉流畅的交互。

有效的语音动态交互体验得益于以下几个原则：

短暂的——不同状态下进行无缝转场。用户应该从不觉得自己在等待程序响应，而是他们的语音助手在为他们工作。

生动的——丰富的颜色传达了愉快和希望，它为交互增加了一种未来主义的优雅，这可以鼓励用户进行重复交互。

积极响应的——积极响应用户的输入和指令，要给用户提示哪些词正被处理，要让用户知道他们的语言或意图是否能够被正确解析。

结论和资源

语音交互（VUI）是极为复杂的、多层次的，同时又混合了多种交互方式。事实上，它并没有一个很全面的定义。生活在数字化进程高速运转的世界，相比人和人相处的时间，我们会花更多的时间与设备相处，记住这一点是很重要的。语音交互（VUI）会成为我们和世界互动的主要方式吗？让我们拭目以待。

同时，你希望构建世界一流的VUI吗？以下这些资源可以帮助你学习：

How to Design Voice User Interfaces | Interaction Design Foundation

What Is a Voice User Interface (VUI)? An Introduction | Amazon Developer

Voice Actions | Google Developers

SiriKit | Apple Developers

Designing a VUI by Frederik Goossens

A Guide to Voice User Interfaces by Fjord

谢谢你花时间阅读这篇文章，我经常会写关于设计的科技的东西，如果有空的话可以关注更多。

设计愉快！

贾斯汀

语音交互设计-终极设计师指南（译）