心理学研究一直是研究者和被试浑身上下的误差进行战斗的过程。和自然科学相比,心理学指标往往没有办法那样直接、精确地进行测量,这也导致心理学常被人贴上“不靠谱”的标签。
2015年8月,一个心理学实验复现计划的结果更是引发了人们对心理学成果的“信任危机”——开放科学合作组织(Open Science Collaboration,OSC)对100项心理学实验成功进行了重复实验,结果发现,成功复现的实验还不到四成(更多阅读:再做一次做不出:100项心理学成果,超过六成不可再现)。
不过,来自哈佛大学和弗吉尼亚大学的4位心理学家对此提出了异议。最近他们就在《科学》期刊上发表评论文章[1]指出,OSC的心理学实验重复计划有不少漏洞,把重复不出来的结果都赖到原研究上,这个结论其实并没有那么可信。
心理学实验的复现率真那么糟糕吗?图片来自:shutterstock 实验方法和原版不一样OSC项目中设置了8%的不可再现率作为一个“标杆”,研究者们认为,考虑到抽样误差和统计学显著性的标准,如果无法复现的实验在8%以下可以认为是正常的,而超过这个标准就意味着复现性确实存在问题。但是,4位心理学家对这个标杆提出了质疑。他们表示,只有当取样人群不变,并且完全遵照原版实验的规程进行复现实验时,这个标准才能成立,但是看看这些复现实验,它们并没有做到这点。
几位心理学家指出,在这100项复现实验的实验条件中,可以找出以下问题:
①被试完全换了一拨人
比如说,有原版实验研究的是美国人对黑人(非裔美国人)的看法,但在复现实验里,被试却成了一群意大利人,这两个人群对非裔人群持有的刻板印象很可能是不一样的;此外,还有原研究要求大学生想象被教授上课叫到的情景,再现研究却请来一帮没有上过大学的被试;另一项原研究询问每天坐车上学的学生理想公寓与学校的距离,再现研究却用住校学生重复了实验。
②实验程序有差异
有的复现实验在操作方法上也和原版大相径庭,比如一项原研究要求以色列人想象当兵的后果,再现研究竟然是让美国人想象自己蜜月后的结果;一项原研究要求幼龄儿童在大屏幕上进行定位游戏,再现研究却要求大龄儿童在较小的屏幕上完成任务,这样一来难度就低多了;一项原研究针对韩国人探究慈善捐助电子邮件中的遣词造句对回复率的改变,再现研究却是在全世界范围发送了邮件。
实验条件的差异对结果会产生影响,但OSC项目设置的标准却没有对此加以考虑。参照另外一个心理学实验复现项目(“Many Labs”Project, MLP)的结果,心理学家们认为,考虑到复现实验和原版实验的条件差异,我们可以“预见”会出现更多的失败结果。
数据单薄不可靠在评论文章中,心理学家们还对OSC项目的数据强度提出了质疑。在这个项目中,每一个心理学实验只被重复了一次,这样得来的数据依旧太单薄。而“许多实验室”项目(MLP)则把每个实验重复了35或36次,然后将数据综合进行计算,最终结果显示16项研究有85%可以被重现。假设MLP项目也采用OSC项目的处理方法,那么就只有34%的重复结果落在了原研究结果的置信区间中。由此心理学家们推断,OSC项目的研究方法过于依赖单一数据结果,这可能也低估了实际的可重复率。
不“还原”的实验拖后腿几位心理学家还指出,当复现实验的条件和原版有明显偏差时,这种偏差更偏向于对结果产生负面影响,把这样的实验都纳入统计,也会对整体数据产生“拖后腿”的作用。
在OSC项目的100项重复实验进行时,研究者们曾就实验方法向论文原作者征求了意见,但只有69%的原作者认同了再现实验的研究方法。如果把“原作者认同”和“原作者不认同”的实验分开计算,就会发现前者的复现成功率(59.7%)远远超过后者(15.4%)。如果只考虑获得作者认同的那部分实验,其实复现率就会改善很多。原论文作者的意见确实是相当主观的标准,但未获得原作者认同的那部分实验方法的可靠性依然值得怀疑。
“这篇论文有着巨大的影响,” 评论文章作者之一、丹尼尔·吉尔伯特(Daniel T. Gilbert)表示,“它在《科学》全部领域的‘年度突破’中名列第三。它使很多科学期刊改变了政策,改变了资助机构的态度,并且严重损害了公众对心理学的印象。我们希望OSC能像他们努力生产这些结果那样来修正大众对他们研究结果的误解。”
争论还在继续面对质疑,OSC项目的研究者们也不示弱,3月4日,他们也在《科学》上发布了回应[2]。OSC项目的研究者们认为,被试和实验程序的差异对再现率并没有那么严重的影响。实际上,在评论文章中所举的例子里, 有三个实验的方法都获得了原研究作者的认同。另一个实验虽然将美国人换成意大利人,但实验却再现成功了。由此说明,原作者的认同并不能作为一个令人满意的指标。
OSC的研究者们指出,其实并没有“完美再现”这一说法,除了被试和程序存在差异,不同设备、不同语言、被试当下的人生状态、甚至天气,又何尝不是差异?我们也害怕这些差异影响实验精确度,所以做了验证性的统计。但结果发现,再现实验和原实验间的相似度与再现率其实并没有很大关系,因此我们才敢说我们的再现实验是有保障的。
无论如何,双方研究者们都认同验证心理学研究结果的复现率是非常重要的事情,这些重复实验项目的出现也会帮助心理学研究变得更加完善、严谨。看到“心理学成果超六成不可再现”的报道,也不必立刻就对整个心理学领域失去信任。至少,心理学家们已经在认真考虑这个问题的解决方案了。(编辑:窗敲雨)
文章题图:shutterstock 友情提供
参考资料:Comment on “Estimating the reproducibility of psychological science”
Response to Comment on “Estimating the reproducibility of psychological science”