为什么需要进行可用性度量?
用户体验等概念本身具有强烈的模糊性,反映的多是用户认知、操作和主观感受等层面的体验,这就注定对用户体验的测量离不开经验型的评估方法。
本书的可用性度量在实践中可用于任何类型的产品和技术,不限于网站或任何其他单一的技术,其任务成功(率)和满意度都同样有效。
什么是可用性?
用户参与;用户需要做一些事情;用户需要一个产品/系统/其他物件做事情。(特定使用情境下,特定的用户完成特定的目标时,产品所表现出来的效果、效率和令人满意程度)
如何区分可用性和用户体验两个概念?
可用性通常关注的是用户使用产品成功完成某任务时的能力;用户体验则着眼于一个更大的视角,强调的是用户与产品之间的所有交互以及对交互结果的想法、情感和感知。“大视角”可用性测查的是整体用户体验。
度量:一种测量或评价特定现象或事物的方法。
可用性度量:有效(能否完成某个任务)、效率(完成任务时所需要付出的努力程度)、满意度(操作任务时,用户体验满意的程度)
可用性度量可以回答以下问题:
用户会喜欢这个产品吗?
这个新产品的使用效率会高于当前的产品吗?
如何比较这个产品的可用性与竞争对手产品的可用性?
这个产品中最为明显的可用性问题是什么?
从前期的设计迭代中所吸取的经验有没有体现在后期的改进上?
可用性度量和其他度量之间的一个区别:可用性度量测试的内容与人及其行为或态度有关。
可用性度量的价值?
测量用户体验所能提供的信息要远远多于简单的观察所能提供的信息。度量使设计和评价过程增添了结构化的元素,能够给予调查结果以更好的理解,同时给决策者也提供了重要的信息,而不是通过不正确的假设、直觉和预感做出重要的商业决策。
1. 可用性度量可以准确地知道新产品是否真的优于当前产品。
2. 可用性度量是计算ROI的一个重要组成部分。
3. 可用性度量是不是要花太多的时间和钱?
理想情况下,可用性度量可以加速设计进程,度量可以快速而容易地收集。一些简单的可用性度量可以作为你每天测试的组成部分加以收集,在测试单元的开始和结束增加几个额外的重要的问题,在任务结束后,可以要求参与者就易用性和满意度进行评级。简单联络目标用户群发邮件即可,另外网上还有一些免费的分析工具,资金和时间绝不是重要度量所必要的。
可用性数据的噪音会不会太多?
“噪音”经典例子是,在一个自动化的可用性研究中,当测试参加者出去喝咖啡或者过周末时,还在继续测量任务完成时间。可用性数据可以被整理,这样在分析中就不会用到极端的数值。如果给予一些周全的考虑和几个简单的方法,可用性数据中的众多噪音可以被显著地减少,直到显示用户行为和态度的清晰原貌。
新产品和老产品都适合度量吗?
新产品度量可以构建一系列基线度量,也有助于为新产品确定目标性的度量,后续产品发布均需满足基本的可用性度量。迭代产品可以比较数据,是了解新设计是否有提高的唯一途径。
设计可用性研究:
选择参加者:1、有代表性;2、不同类型的参加者类型进行数据分类(领域专业化程度-新手/熟练/专家,使用频率,经验程度,人口统计学变量-性别/年龄/地理位置,特定行为);3、抽样策略(随机抽样、系统抽样、分层抽样、方便抽样)
样本大小:早期阶段需要较少(3-4个)的参与者来确定主要的可用性问题;随着设计逐渐完成,即需要更多的参加者(4个以上)发现剩余的问题。
组内研究/组间研究;自变量和因变量
数据类型(任务完成率、网络流量、满意度调查的评价、参与者实验过程中遇到的问题数):
称名数据:一些简单无序的组/类别。(如计数、频率)
顺序数据:一些有序的组/类别。(如网站评级为 极好、好、一般、差,相邻等级间的差距不一定相等)
等距数据:没有零点的连续数据,且测量值之间的差异是有意义的。(如摄氏温度和华氏温度)
比率数据:与等距数据类似,而且具有绝对的零点。
描述统计:
集中趋势(平均数、中数、众数)的测量;变异性(全距、方差、标准差「变异性、离散程度」)的测量;置信区间(一个范围,用来估计某统计值的总体实际值)。
图形化呈现数据:条形(柱状)图、折线图、散点图、饼图、堆积条形图
规划可用性研究:
· 研究目标
研究目标-形成式可用性(目标是对设计进行改进,即发现/分析问题、提出修改建议,然后待完成修改后再次评估。在设计最终确定之前进行)
1. 有哪些最重大的可用性问题让用户无法完成他们的使用目标或导致效率低下?
2. 产品的哪些方面用户用起来感觉良好?哪些方面让他们觉得沮丧?
3. 用户通常犯哪些最常见的失误或错误?
4. 产品在经过一轮设计评估迭代后是否有所改进?
5. 你预期在产品上市后可能还存在什么样的可用性问题?
研究目标-总结式可用性(目标是评估一个产品或者一项功能与其目标结合得有多好。可用于对多款产品的比较研究)
1. 我们是否满足了这个项目的可用性要求?
2. 我们的产品与竞争对手的产品相比如何?
3. 跟上一版已发布的产品相比,新版产品是否有改进?
用户目标
1. 绩效:绩效与用户使用产品、与产品发生交互所做的所有工作有关。(完成每个任务的时间、完成每个任务所付出的努力-比如鼠标的点击数或认知努力的程度、所犯错误的次数及成为熟练用户所需的时间-易学性)
2. 满意度:满意度与用户接触和使用某产品时所说和所想的一切有关。(满意度和绩效并非总是紧密相关的)
选择正确的度量:十种可用性研究
1.完成一个业务(成功/失败、再次使用可能性、用户期望、效率)
2. 比较产品(比较竞品/上一版产品的可用性的最佳方式之一是通过组合与比较式的可用性度量)
3. 评估同一产品的频繁使用(度量任务时间、完成步骤数、页面浏览量、易用性-知晓度/有用性)
4. 评估导航和(或)信息架构(任务成功-类似寻宝/清障游戏、迷失度、卡片分类)
5. 增加产品知晓度(产品有的部分没有被注意或使用,这可以有很多原因,包括视觉设计、标记或位置等;视线跟踪,网站数据/流量变化-A/B测试)
6. 问题发现(用于以前没有经过可用性评估的问题,通常是开放式的。对问题进行分类总结,如高层级的导航、术语用语问题,并对问题给出严重性评分,制定设计改进点列表)
7. 使重要/要害产品的可用性最大化(要害产品的存在是为了让用户去完成十分重要的任务,没完成将导致严重的负面后果)
8. 创造整体正面的用户体验(最佳的用户体验是那些超越用户期望的产品。满意度是常见的自我报告式度量)
9. 评估微小改动的影响(a/b测试是用一个控制设计方案去比较另一个替代方案,大样本的在线可用性研究也很重要)
10. 比较替代性的设计(发生在设计过程的早期。可以组间比较、迫选比较、对不同原型进行评分)
其他细节:
预算和时间表(准备数据——可用性测试的时间和成本——自己整理和分析数据的额外时间和成本)
评估方法(实验室测试:一对一问答形式,4-10个参加者;在线测试/研究;焦点小组,8-10个参加者,3组及以上)
参加者(招募标准、数量、招募策略)
数据收集(excel等)
数据整理(筛选数据-过滤极端/有问题的数据、创建新变量、检验应答、检查一致性)
焦点小组和可用性测试的区别?
这两种方法的前后相似之处在于,他们都邀请具有代表性的用户参与进来。在焦点小组中,参加者通常只是看某个人演示或描述一个可能的产品,然后对此做出反应。而在可用性测试中,参加者要自己实际去尝试某一个版本的产品。我们看到过很多例子,一个产品原型在焦点小组中获得了热情洋溢的评论,却在可用性浏试中反响拙劣。
绩效度量:
任务成功
二分式成功-成功/失败-成功数据的置信区间,「有清晰的结束状态」
成功等级-完成任务/部分完成任务/失败-需要帮助/不需要帮助/误解/放弃、没问题/小问题/大问题/失败放弃,「有清晰的等级定义」
任务时间(通常-任务时间越短体验越好,游戏/培训课-相反。
「时间、中数、平均数、95%置信区间、全距、阈值、分布和异常值」
时间数据需要考虑:只针对成功任务还是所有任务、出声思维、是否告知参与者需要进行时间测量?
错误
何时测量错误?「错误导致效率降低-数据丢失/重新输入/任务缓慢;错误导致成本增加-客服电话量上升/产品退回;错误导致任务失败-病人服错药、投票选了错误的人、买了错误的产品」
什么构成了错误?「多种不同类型、用户操作动作(视觉、交互)」
收集和测量错误「收集任务中的错误机会/错误数量」
分析和呈现错误「1个错误机会的任务:考察每个任务的错误频率;多个错误机会的任务:考察每个任务的错误频率,每个任务每个参加者所犯的平均错误数,哪些任务落在阈值之上或之下,错误程度不同」
考虑问题「不重复计算错误;多每种类型的错误进行考察;错误和任务成功与否的度量存在交集,选择适合受众的度量」
效率(用户完成任务所付出的努力程度)
认知努力(找到正确的位置执行操作动作-确定操作动作的必要性-解释该操作动作的结果)和身体努力(执行操作需要的身体动作)
收集和测量效率:确定有待测量的操作动作;定义操作动作的开始和结束;计算操作动作的数目;确定的动作必须有意义-动作能表示认知/体力需求的增加;只考察成功的任务。
分析和呈现效率数据:迷失度(操作任务时所访问的不同页面数、总页面数、完成任务必须访问的最小页面数);「考察参加者完成某任务时的操作动作数量」
结合任务成功和任务时间的效率:效率百分数=完成率/任务时间,即每分钟完成任务数,可评估任务难度
易学性(是一种测量绩效随时间而如何发生变化的方法)
因为产品使用不是一次性事件,是具有一定数量的发生频率,所以易学性十分重要。
几乎可以使用任何持续性的绩效度量予以测得,最常见的是聚焦在效率上的度量(任务时间、错误、操作步骤数量、每分钟任务成功)
基于问题的度量:
什么是可用性问题?
任何影响了任务完成的情形。
任何导致用户”偏离航线’(off - course )的情形。
任何让用户产生某种疑惑的情形。
任何导致错误的情形。
没有看到应当注意的内容。
认为本来错误的内容是正确的。
任务未结束时误以为已经完成了。
错误的操作行为。
对内容的误解。
不理解导航(结构)。
如何发现可用性问题?
常见的方法是在研究中直接与参加者接触/交互(如面对面实验室研究、电话/视频远程测试)以发现可能存在的问题。还可以利用诸如在线学习之类的自动化技术来发现可用性问题。
面对面研究:出声思维法,集中于如何与产品进行交互的意识流。(用户正在做什么、想做什么、对自己的决定有多大把握、预期是什么、操作行为背后的原因,用户言语中的失望/疑惑/高兴/信心/犹豫、用户没说出他们应当说出的事情、非语言行为如表情或眼动)
自动式研究:注意收集数据、收集评论,基于单个任务的反馈可能好于整体反馈。
严重性等级评估:低中高(对用户体验影响大小+多少用户遇到问题),54321级
分析和报告可用性问题相关的度量:
1、该产品的总体可用性如何?2、产品的可用性是否随着每一次设计迭代而提高?3、应当着力于哪些方面以改进设计?
独特问题的频次(理想:随着设计迭代,问题数量减少);每个参与者遇到的问题频次(独特问题频次减少了嘛?少数用户的问题解决了嘛?大家共同遇到的问题解决了嘛?);参加者频次(说明遇到各个问题的参加者数量)
对问题进行归类(导航、术语、内容、功能)
报告正面的问题(可以提升报告的可信度)
发现可用性问题时的一致性,发现可用性问题时的偏差(参加者-5个足矣/5个远远不够、任务、方法、产品、环境、测试引导员)。「在可用性测试中扩大任务覆盖面的一种行之有效的方式是定义一套所有参加者都必须完成的核心任务以及另一套只适合某个参加者-基于特征 的任务」
自我报告式的度量
了解产品可用性的最显而易见的方法就是询问用户,让用户告诉你他们使用产品时的体验,包括用户感知系统与系统交互。
你的问题可以有多种形式,包括:各种各样的评定量表、参加者可以从中选择的选项列表以及开放式的问题(如“请列出你对本设备最满意的三个方面” ) ;你可能问到的一些可用性属性包括:总体满意度、易用性、导航的有效性、对某些特征的知晓度、术语的易懂性,视觉上的吸引力以及其他许多方面。但是所有这些的共同特征是你询问参加者者以获得信息。
描述这类数据分为主观数据和偏好数据。主观数据和客观数据相对应,客观数据经常用于描述可用性研究中的绩效数据。
收集数据:likert量表(强烈反对、反对、既不同意也不反对、同意、非常同意;5点/7点量表:语义差异-弱ooooooo强、美ooooooo丑)(在线调查工具);正性陈述和负性陈述;
任务后评分:易用性、情景后问卷(容易程度、所用时间、辅助性信息)、期望测量(期望容易实际很困难-尽快修改、期望容易实际也容易-维持不变、期望困难实际容易-广而告之、期望困难实际也很困难-重要机会);「单个任务的评分;系统可用性量表」「SUS分数」
计算机系统可用性问卷:系统有效性、信息质量、界面质量、总体满意度。用户界面满意度:总体反应、屏幕、术语、学习、系统能力。定性研究-生成反应卡。
用sus比较各种设计:“老年人友好”网站、windows ME/XP、纸质选票
评估具体属性:视觉吸引力、感知效率、有用、愉悦、可信程度、术语的适当程度、导航、响应程度;除了评估一个产品或网站的具体属性外,你也可以评估他们的具体元素,如使用说明、FAQ、在线帮助、首页、搜索功能、站点地图。
行为和生理度量
言语行为(正面评论、中性评论、负面评论)和非言语行为(面部表情-面部肌电图传感器/视频录像、肢体动作、视线跟踪-热点地图、瞳孔反应、皮肤电反应和心率)
合并和比较度量
单一可用性分数:在可用性测试之后,会被问到“产品表现如何?”,这个问题通常想了解的不是任务完成率、任务时间或者问卷分数,而是某种类型的综合分数:产品表现得好不好?与前一轮可用性测试相比,它表现得如何》这就需要将可用性测试中得多个度量合并为某种类型的一个综合可用性分数。
根据预定目标合并度量(如以平均不超过70s的时间完成至少80%任务的综合指标,是且的关系,即不能超过70s也要完成80%的任务);
根据百分比合并度量(如将任务数、错误数、满意度评分均换算成百分制);
根据z分数合并数据(比较不同子集/子类,如不同迭代/不同组别/不同条件的数据)
使用SUM:单一可用性度量(任务完成、任务时间、错误、任务满意度 合并)
可用性计分卡:雷达图(任务完成、页面访问、准确性、满意程度、有用性评分)、Harvey球
与目标专家绩效比较:与目标比较(如至少90%的典型用户能够成功下单、用户能够在平均时间小于三分钟内完成每个任务);与专家比较(有的任务本身就比较困难/耗时长,目标是比较参加者与专家绩效的实际接近程度)
专题
在线网站数据:
服务器端的日志(更多的访问量);点击率(通常测试网站广告的效果,点击次数/投放次数,卡方检验);弃用率(统计每个页面的到达率、弃用率);A/B研究(A/B测试,一部分访问者会看到A版本,另一部分访问者会看到B版本:流量百分比-不同版本的投放量、新的销售量-购买的访客量)
卡片分类数据:
开放式卡片分类数据(15个人左右,研究者自由归类,类别相同则距离为0,类别不同则距离为1,所有用户数据相加,值最小为最相似)「层级聚类分析-可以看出卡片大致被分为几组;多维标度法/MDS-拟合度、项目之间的相对距离」。封闭式卡片分类数据(给用户提供卡片和分组组名,统计用户将卡片放在某组的用户数和最大比例;或统计用户将卡片放在不同组的用户数、最大值、第二位置和第一第二差值。适合比较不同信息架构哪个更适合用户使用)
可达性数据:只针对某类特殊用户的可用性,如盲人用户、视弱用户、控制组。WCAG(w3c的web内容可达性指南)
投资回报率数据:产品用户是你的雇员(可节省的任务完成时间直接换算成美金)/产品用户是你的客户(收益更为间接)
六西格玛(six sigma),六个标准差,指在平均数上下的三个标注差范围内,你能解释99.7%的事例(正态分布-SUS得分)
案例研究
如何又快又省地对网站进行再设计:
1、竞品的可用性测试「a、任务举例-确定设计中哪些元素有益哪些元素无益,b、问卷-测量网站的吸引力,c、结果-综合得出网站吸引力的份」;
2、对三种不同的设计概念进行测试「a、对三种原型中的两种进行评估-第一印象和整体喜好程度,b、问卷-满意度测评,c、结果-满意度,d、结果-吸引力和可信度,e、负面反应,f、不关注统计意义上的显著性,关心发展的趋势和设计中的突破」
3、对单独的设计方案进行测试「a、结果-任务成功率、满意度,b、总结-设计检视」
语音识别的IVR系统的可用性评估
方法:参加者完成4个任务,每个任务完成后填写“情景后问卷ASQ(3个问题,1-7打分,分数越低满意度和易用性越好,整体得分为平均值)”,完成所有任务后填写“测试后系统可用性问卷PSSUQ(16个题项,7点标度描述用户对一个论述的同意程度,得分越低表示主观可用性越好,系统有效性/信息质量/界面质量)”
结果:基于任务的测量(完成时间、成功率、满意度、90%置信区间);用户评论(对三个最喜欢和最不喜欢的特点进行评论);可用性问题(让用户无法完成任务、补救时间超过1分钟、补救时间小于1分钟、轻微的低效率,影响等级越大权重越高);基于用户行为和评价的建议;讨论。
CDC.gov网站的再设计
项目主要的可用性工作包括以下内容:检视 CDC 过去有关可用性研究的结果,访谈用户、利益相关者、合作伙伴及网站制作人员,详细分析网站、搜索和访问日志,分析从”美国消费者满意指数”得到的用户调查数据,调查 CDC 管理层、雇员和网站制作人员的意见和态度,进行卡片分类,开展并行设计,制作一系列线框图,制作图形化导向的原型。
这个案例研究中的可用性测试包括基线测试、首次点击测试、和后期原型测试。用了 100 多个任务场景,170名参加者进行了测试。这些可用性测试最终表明成功率提高了 26 %、满意度得分提升了 70 %。
可用性测试的五个级别:
传统的检查型评估,比如启发式评估和专家检视等
利用场景进行规则式检视
适度控制的可用性测试,需要相对少量的测试参与者(大约8名)
严格控制的可用性侧试,只需要适量的测试参加者以对整个用户群进行较弱的推断
严格控制的可用性测试,需要足够数量的测试参加者以对整个用户群进行充分的推断
其他:
基线测试,任务场景,定性分析的发现。数据处理及可视化,讨论。
用户(性别、年龄、种族、家庭收入、教育水平、使用不同数据业务,并有侧重-XXX特征的XX年纪的人)
推进
推销可用性和度量的作用
邀请决策者到实验室观察尽可能多的可用性测试单元;短小的视频片段;
从小事做起,努力慢慢做起来,不要试图全面开花
确保有时间和经费
早计划,常计划
给你的产品确定基线
挖掘你的数据
说商业性的语言
呈现你的置信程度
不要误用度量
简化你的报告(取决于目标受众,报告总结性度量)