【译】小样本的统计分析问题

有人认为，对于小样本，你就无法使用统计的。但，这是一个误解，一个常见的误解。

对于小样本，我们也有适当的统计方法。

一个研究者的“小样本”，在另一个研究者看来则可能意味着“大样本”。本文中，小样本主要是指样本量在5-30个用户（可用性研究中常见的样本量，进一步阅读:http://www.measuringusability.com/blog/actual-users.php）。

值得注意的是，用户研究并不是出现小样本的唯一领域。其他具有较高操作成本的研究也会出现这个现象，比如fMRis和动物实验等。

尽管我们有相应的方式来处理小样本研究数据，但我们应该清晰地知道小样本的局限性：你很难看到很大的差异，很明显的效果。这就像使用双筒望远镜进行天文观测一样：使用双筒望远镜，你可能无法看到行星、恒星、月亮和偶尔出现的彗星。但这并不以为着你就不能进行天文观测了。事实上，伽利略就是使用望远镜（与今天相当的双筒望远镜相当）发现了木星的卫星。

统计也是一样。仅仅因为你的样本不够大，并不能判断你能不能使用统计。再次强调，小样本的关键限制是，你难以发现设计或措施的效果是否有差异。

幸运的是，在用户体验研究中，我们往往关心的是不同用户可能发现的不同问题：比如：导航的结构变化，搜索结果页面的改进等等。

下面是我们在小样本用户研究中的常见统计分析方法。

比较compare

如果您需要对比两个独立组别的完成率、完成时间，问卷评分等。有两种大样本或者小样的方法可以采用。具体适用与哪种方法，取决于数据的特征：连续的还是离散的。

比较均值：如果你的数据是连续的（不是二进制），比如任务完成时间、问卷评分等，你可以采用独立样本t检验。实践证明，它对于小样本也是适用的。

二分变量比较：如果你的数据是二进制的（成功/失败，是/否），你可以采用N-1的卡方检验。当期望数目小于1时，使用Fisher精确检验往往有更好的表现。

置信区间Confidence Intervals

当你想从样本数据来推测整个用户群，你会想到生成一个置信区间（译者注：关于置信区间，可参阅：http://baike.baidu.com/view/409226.htm）。

尽管小样本的置信区会相当宽（通常为20-30个百分点），但是建立这样的区间总是有益的。例如：你想知道，用户在安装打印机前是否会去阅读“Read this first”文档。而测试中，8名用户中有6名用户没有去阅读。这时候我们可以推知：至少40%的用户很可能会这么做——这是一个相当大的比例。

置信区间的计算方法有三种，这取决于你数据是否是二进制、时间或者连续的。

基于平均值的置信区间Confidence interval around a mean:如果你的数据是连续的（非二进制），如评定量表、以美元计算的订单金额，页面访问数等。那么，置信区间的计算可以基于t分布进行计算（当然，这需要考虑到样本量）。

基于任务时间的置信区间Confidence interval around task-time:任务时间的理论最小值为0秒（不多见），一些用户的任务时间可能是其他用户的10-20倍。对于这种不对称性，我们需要进行数据转换（log-transformed），然后基于转换后的数据进行计算。待报告时再转换回来。

基于二进制的置信区间Confidence interval around a binary measure:二进制的数据比如完成率或yes/no。这类置信区间的计算，可以采用校正后沃尔德检验法（Adjusted Wald interval）计算（这种方法对于所有样本规模均适用）。

点估计（均值）Point Estimates (The Best Averages)

任何研究报告中，何为"最好"的平均时间或平均完成率的估计，应当取决于研究的目标。

请记住：即使是“最好”的均值估计，也依然不代表实际的平均值。所以对于未知总体均值的估计而言，置信区间是更好的展示方法。

在可用性研究中，小样本的均值计算，比较适宜的有两个：任务时间和完成率。不同样本规模中更常见的则是量表评分（SUS评分等）。

完成率：小样本的完成率，通常可能只有几个数值（译者注：可用性测试中，这一数字可能为5）。例如：有五个用户进行任务操作，其任务完成率只可能是：0％，20％，40％，60％，80％和100％几个数字中的某一个（100%也并不罕见）。基于小样本得出一个完美的成功率，可能并不恰当——因为它可能并不能揭示真实情况（测试结果优于真实情况）。

我们（指作者）对自己的小样本可用性测试数据，利用拉普拉斯估计（theLaPlace estimator）和简单比例（一般称为，最大似然估计，the Maximum Likelihood Estimator）进行了均值估计（参见：http://www.upassoc.org/upa_publications/jus/2006_may/lewis_small_sample_estimates.pdf ）。

评定量表的均值问题：量表是一个有趣的度量类型，它们大多是有限的区间（如：1-5,1-10等）除非你是Spinal Tap（译者注：因翻译期间，该链接视频未能打开。故未译成中文）。我们发现，在小型或大型的样本中，均值最好是在中位数上（参阅：http://drjim.0catch.com/1993_MultipointScales_MeanAndMedianDifferencesAndObservedSignificanceLevels.pdf）。当然，我们有许多方式来报道评定量表的分数，比如top-two boxes（直观理解，可参照NPS的计算规则）。

具体如何报告取决于你的灵敏度需要和组织要求。

任务时间均值：一个较长的任务时间可能让算术平均值产生扭曲，这时候中位数则是用来描述平均水平的更恰当的指标。样本数在25以上的，中位数对均值具有良好的代表性（进一步阅读：http://www.measuringusability.com/average-times.php）。

不幸的是，中位数往往不够准确，在样本数小于25的情况下，比平均值更加不准确。这时候，几何平均值往往具有更好的衡量意义（译者注：几何平均值受极端值的影响更小）。

【工具箱】

小样本计算器：http://www.measuringusability.com/wald.htm

任务时间置信区间计算：http://www.measuringusability.com/time_intervals.php

二分变量差异检验：http://www.measuringusability.com/ab-calc.php

top-two boxes：https://www.measuringusability.com/blog/top-box.php

几何平均数计算器：http://www.ab126.com/goju/1710.html

数字帝国-统计计算器：http://zh.numberempire.com/statisticscalculator.php

——————————————————————————————

本文作者：Jeff Sauro（Measuring Usability LLC的主要创立人，著有“Quantifying the User Experience: Practical Statistics for User Research” “Excel & R Companion to Quantifying the User Experience”“A Practical Guide to the System Usability Scale” “A Practical Guide to Measuring Usability”四本书）

【译后记】译罢此文，深深感触：对于结果直接提供算术平均数就是耍流氓！而多数报告也确实只提供了算术平均数一种。本文对于更严谨科学地分析和解读研究发现，具有重要的启发意义。

因时间和精力限制，译文难免存在谬误，欢迎批评指正。

【版权申明】本文不做任何商业用途，转载请注明出处。相关知识产权归原作者，擅自商用带来的一切风险和责任自付，与本人无关。

最后编辑于：2017.11.27 02:54:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341

【译】小样本的统计分析问题

推荐阅读更多精彩内容