Trustworthy Online Controlled Experiments Part 2 Chap 9
科学的进步远超人类的道德行为。
− Charlie Chaplin (1964)
为什么重要
从领导->工程师->产品经理再->数据科学家,了解实验的道德对每个人都至关重要。应该让所有人都了解道德方面的注意事项。在实际的人身上进行受控实验,无论是技术,人类学,心理学,社会学还是医学。在确定何时就实验道德问题寻求专家意见时,需要考虑以下问题和疑虑。
背景
伦理的广义定义是支配我们应该做或不应该做的事情的一套规则或道德。适用于研究的道德规范确保结果完整性,以及协作工作必不可少的价值观,公共问责制以及包括公共安全和人类受试者保护在内的道德和社会价值观(Resnick) 2015)。伦理学在研究中的应用会随着时间而变化,反映出随着时间的推移,世界,文化和人类对意料之外的变化的反应。正如查理·卓别林(Charlie Chaplin)在上述引文中所写,道德行为的规章制度正在发展并落后于科学。
这个主题太深了,无法在这里全面研究,因此我们仅对受控实验的研究伦理进行概述。为了进行更深入的研究,我们建议参考(Loukides,Mason和Patil 2018,FAT / ML 2019,ACM 2018,King,丘吉尔和Tan 2017,Benbunan-Fich 2017,Meyer 2015、2018),这些参考文献介绍了关键原理,清单,和实用指南。尽管实验人员通常不是专家,但我们应该问自己一些问题,认真审查我们的做法,并考虑用户和企业的长期最佳利益。请注意,我们是以个人身份而非Google,LinkedIn或Microsoft的代表的身份来撰写本文的。
这两个最新的例子说明了这些问题的必要性。
Facebook和康奈尔大学的研究人员通过社交媒体研究了情绪传染(Kramer,Guillory和Hancock 2014),以确定暴露于负面信息稍多的参与者一周后是否发布了更多负面内容,反之,是否暴露于正面消息的参与者,一周后发布了更多的正面消息。
OKCupid进行了一项实验,在该实验中,他们招募了成对的匹配度为30%,60%和90%的客户,他们告诉三分之一的客户,他们的匹配率为30%,他们中有三分之一的人是60%的比赛,有三分之一的人是90%的比赛(《卫报》 2014年,迈耶2018年)。
给定这些示例以及许多其他示例,我们如何评估要运行的A / B实验?
首先,我们来看看1979年发布的《贝尔蒙特报告》(美国国家生物医学和行为研究保护委员会,1979年),该报告确立了生物医学和行为研究的原则,并遵循了《共同规则》(人类研究保护办公室,1991年) ),以根据这些原则建立可行的审核标准(Meyer,2012年)。这些建立在几个例子之后,包括1930年代的Tuskegee Syphilis研究(CDC 2015)和1960年代在医学领域的Milgram实验(Milgram 2009),在这些领域,遭受实质性伤害的风险通常比在线实验高得多。 根据这些指导原则,我们现在可以检验 有关该临床试验是否合理的问题(Hemkens,Contopoulos-Ioannidis和Ioannidis 2016),并且可以给出,在某些情况下进行随机对照试验(RCT)不现实或被认为是不道德的(Djulbegovic和Hozo 2002) )。
Belmont报告和《通用规则》在生物医学和行为人类受试者研究的背景下提供了三个关键原则:
尊重他人: 尊重他人,对于可以给自己拿主意的人来说是告诉他们真像,然后尊重他们的选择。对于没有自主能力的人来说, 由代理人来行使该职责。这转化为对透明度,真实性和自愿性(选择和同意)的关注。
收益: 保护人们免受伤害。虽然《贝尔蒙特报告》指出,仁慈意味着将风险最小化并为参与者带来最大利益,但《通用规则》认识到这样做的挑战,而侧重于正确评估风险和利益,并在审查拟议的研究时适当地权衡这些风险和利益。
正义: 确保不剥削参与者,并公平分配风险和利益。
由于其复杂性,《通用规则》提出的规定不仅要平衡研究本身的收益和风险,而且要告知研究参与者透明,真实和自愿的必要性,包括豁免权。
尽管这些问题是医学一门学科的有用框架,因为在该学科中可能会造成重大伤害,但很少有明确的对与错答案。 因此,针对特定的在线A / B实验, 这些原理需要判断,思考,谨慎和经验。以下是一些要考虑的关键点:
风险
在研究中,参与者面临什么风险?风险是否超过了由《通用规则》定义为“在研究中预期的损害或不适的可能性和严重性,其本身不比日常生活中或例行的身体活动或日常活动中所遇到的那些危险和轻重的风险最小的风险”。”伤害可能是身体上,心理上,情感上,社会上或经济上的。
一个有用的概念是均衡(Freedman 1987):对不同的干预,相关的专家群体是否处于均衡状态(真正的不确定性)。
在评估在线受控实验时,一项有用的测试是在给定组织标准的情况下,是否可以在不进行受控实验的情况下将功能发布给所有用户? 如果可以在不进行实验的情况下对算法或产品的外观进行更改,那么你肯定应该能够进行实验并首先科学地评估更改;也许你会发现意想不到的效果。这时的发布实际上是一个实验。这可能不是一个对照实验,而是一个效率低下的顺序测试,需要人们查看时间序列。如果关键指标(例如收入,用户反馈)为负,则该功能会回滚。
当对所有人控制或干预均可接受时,对在线对照实验的抵制有时被称为“ A / B幻觉”(Meyer,2015; Meyer等,2019)。当你决定发布时,想想会产生什么影响,它们可能成立,也可能不会成立。如果打算将产品发布给100%的用户,那么在实验阶段将新功能给50%的客户用也没有问题。迈耶(Meyer 2015)举例说明:
…一家公司的负责人担心她的一些雇员没有足够的储蓄来退休……她决定从现在开始,当她发送401(k)邮件时,她将在声明中发布在职5年员工加入 401k 的人数, 以此激励那些还没有加入计划的员工。
尽管公司负责人的意图很好,并且研究表明了同伴效应的好处,但是当进行受控实验时,它会导致对立反应并减少储蓄(Beshears等,2011)。
好处
风险的另一面,是要了解研究的好处。通常,在线控制实验会从改进产品的角度来考虑收益,改进产品可以直接让干预组用户受益,甚至可以间接地建立可持续的业务以使用户可以继续使用从服务中受益。用户生产力的提高可能属于前两个类别,而广告收入的提高可能属于间接利益的最后一个类别。
评估收益可能会更加棘手的一种原因是,运行有意为参与者提供较差体验的实验时,往往会通过量化权衡来最终改善所有用户的体验。例如,进行降低用户体验的实验(请参阅第5章),展示更多广告以了解长期影响(请参阅第23章)或禁用诸如评估其价值的建议之类的功能。这些情况违反了公平原则,因为人们普遍认为该治疗方法无益,但对使用者的风险却很小。运行这些实验的好处涉及建立折衷方案,这些折衷方案可用于做出更明智的决策,并最终帮助改善所有人的用户体验。重要的是,在这些情况下不会欺骗用户。尽管与大多数在线对照实验相比,药物实验的风险和危害更大,但在药物毒性研究中还是有针对此类实验的医学类比:在某些时候,太多的药物可能是坏的,但如果没有进行这些研究,我们就不知道后果有多严重。
要注意对新功能的实验与欺骗性实验和建议性能实验的区别(deception or power-of-suggestion experiments)。欺骗性实验带来更高的道德风险,并引发有关是否尊重参与者的问题。
在考虑对参与者的尊重时,我们首先要问的问题是透明度和期望。产品应该通过用户界面中的内容来设定用户对其提供的内容的期望。实验应遵循这些期望。
除了确保透明度的其他几种方法外,知情同意也是一个关键的道德概念,在参与者完全了解风险和收益,过程,任何替代选择以及收集哪些数据以及如何收集数据后,他们同意参加研究。请注意,在这里,我们在讨论同意的一般含义,而不是特定于任何法律定义的同意,例如根据欧洲的《通用数据保护条例》(European Commission 2018)。大多数医学实验均已征得每个参与者的知情同意,有些实验风险特别小,或者符合其他特定规则从而无须获得参与者知情。相比之下,在线服务提供商进行的实验通常给参与者带来的风险要低得多,尽管随着在线服务开始影响离线体验(例如运送实物包裹,乘车共享等),风险和后果可能会增加。此外,鉴于实验规模,获得知情同意既昂贵又令人厌烦。相反,应考虑从需要同意的实验,到对用户的风险和潜在伤害非常低且不需要同意的那些实验,的可能性。
另一种选择是推定同意,其中一小部分但有代表性的人被问及他们对参加一项研究(或研究类别)的感觉,如果他们同意,则假定这种观点可以推广到所有参与者(King et al.2017)。
提供选择
另一个考虑因素是参与者有哪些选择?例如,如果要测试对搜索引擎的更改,则参与者总是可以选择使用其他搜索引擎。在时间,金钱,信息共享等方面,其他在线服务的转换成本可能更高。在评估提供给参与者的选择以及要平衡的风险和收益时,应考虑这些因素。例如,在测试用于癌症的新药的医学临床试验中,大多数参与者面临的主要选择是死亡,在知情同意的情况下,允许较高的风险。
数据收集
进行A / B实验的先决条件是必须提供数据工具以进行实验分析和制定决策。通常,必须收集此数据以测量并向用户提供高质量的服务。因此,在线服务的服务条款中通常会包含数据收集同意书。虽然其他参考文献更详细地讨论了数据收集(Loukides等人,2018),并且当然任何实验都必须遵守所有适用的隐私和数据保护法律是前提条件,但实验者或工程师应该能够回答这些关键问题有关数据收集的问题:
- 正在收集哪些数据以及用户对该收集有什么了解,因此设计隐私是该领域的一个有用框架(Wikipedia贡献者,《设计隐私》 2019年)。
用户是否了解正在收集有关他们的哪些数据?
数据有多敏感?它包括财务或健康数据吗?可以使用这些数据以侵犯人权的方式歧视用户吗?
数据可以绑定到个人吗,也就是说,数据是否可以识别个人身份(请参阅本章后面的补充工具栏)?
收集数据的目的是什么?如何使用数据?由谁使用?
是否有必要为此目的收集数据?数据多久可以聚合或删除一次,以保护单个用户?
-
数据收集可能出什么问题?
如果将这些数据或某些子集公开,会对用户造成什么危害?
考虑对他们的健康,心理或情感状态,社会地位或财务状况造成的伤害。
用户对隐私和机密性的期望是什么?如何保证这些期望?
-
例如,如果在公共场所(例如足球场)对参与者进行观察,则对隐私的期望会降低。如果研究是基于现有的公共数据,那么也就没有进一步保密的期望。如果数据无法识别个人身份(请参阅第103页侧栏),则不必担心隐私和机密性(NSF 2018)。除此以外:
参与者可以期望什么级别的保密性?
处理该数据的内部保障措施是什么?公司中的任何人都可以访问数据,尤其是可识别个人身份的数据,还是通过登录和审核访问来确保数据安全?如何捕获,传达和管理违反该安全性的行为?
如果不满足这些保证,将会发生什么补救措施(会通知参与者)?
文化与过程
我们解决的许多问题都是复杂而细微的。仅仅依靠专家做出所有判断并制定原则可能会很诱人。但是,为了确保符合道德考量,重要的是,企业文化,从领导层到下层的每个人,都应理解并考虑这些问题和含义。内省是至关重要的。
公司(领导者)应实施流程以确保全面了解以下内容:
建立文化规范和教育流程,以使员工熟悉这些问题,并确保在产品和工程评论中提出这些问题。
创建一个满足机构审查委员会(IRB)目的的流程。 IRB审查可能的人类受试者研究,评估风险和收益,确保透明度,提供流程等,以确保诚信和对参与者的尊重。 IRB批准,要求替代方案或拒绝研究。他们为实验人员提供了一些问题,以供他们考虑以确保进行彻底的审查和充分的自省,并为教育目的建立及时的流程。
构建工具,基础架构和流程,以便安全地存储所有(已识别或未识别的)数据,访问时间仅限于需要其完成工作的人员。对于可接受的数据使用和不可接受的数据,应该有一套清晰的原则和政策。应确保记录所有数据使用情况并定期审核违规情况。
创建清晰的上报路径,以了解如何处理风险或数据敏感度问题不止于此的案例。
这些围绕实验伦理的问题和过程并不是要检查的项目,而是可以为最终用户改进产品和实验设计的讨论。
补充:用户标识
一个经常被问到的问题是,已识别的,匿名的和匿名数据之间有什么区别?尽管精确的定义可能会根据上下文或适用的法律而变化,并且仍在讨论中,但是与这些概念相关联的高级概念的概述是:
识别的数据将与个人识别信息(PII)一起存储和收集。可以是名称,ID(例如社会安全号码或驾驶执照),电话号码等。常见的标准是HIPAA(卫生与公共服务2018b,卫生与公共服务2018c),其中有18个标识符(HIPAA Journal 2018,卫生与公共服务2018a)被认为是个人可识别的。在许多情况下,设备ID(例如智能手机的设备ID)也被认为是个人可识别的。在欧洲,GDPR(通用数据保护法规)拥有更高的标准,如果可以与个人链接,则将任何数据视为个人数据(European Commission 2018)。
匿名数据的存储和收集没有任何个人身份信息。如果此数据与分配给某个事件的随机生成的ID(例如Cookie)一起存储,则该数据被视为假名,例如,用户首次打开应用程序或访问网站但未存储ID时。但是,仅说明数据是假名或匿名并不意味着就不能进行重新识别(McCullagh 2006)。为什么?我们必须区分匿名数据和匿名数据。可以识别匿名数据或已查看匿名数据,并以某种方式保证了重新识别风险从低到不存在,也就是说,在给定数据的情况下,几乎没有人可以确定该数据所指的是哪个人。通常,通过安全港方法或其他方法(例如k-匿名性(Samarati和Sweeney 1998)或差分隐私(Dwork和Roth 2014))来实现这种保证。请注意,这些方法中的许多方法不能保证匿名数据不会有重新识别的风险,而是试图量化风险和约束条件,例如限制查询或通过附加查询增加噪音(Abadi et al.2016)。
在基于欧盟的隐私文献中,当前全球隐私方面的最高标准,他们不再将匿名数据作为一个单独的类别进行讨论,而只是谈论个人数据和匿名数据。
因此,对于在实验中收集,收集,存储和使用的数据,问题是:
- 数据有多敏感?
- 从数据中重新识别个人的风险是什么?
随着敏感性和风险的增加,必须提高数据保护,机密性,访问控制,安全性,监视和审计等级别。