在研究中,没有什么事情比进行看似完美的实验,然后看到你的同事或其他研究小组未能获得类似的结果更令人感觉糟糕。 数据的可重复性是指每次进行实验时产生相同结果的能力(当然是在合理的标准误差范围内),而数据的可重复性是指其他研究人员(可能在地球的另一端工作)是否能够重复实验并取得类似的结果。后者是支撑科学合作的一个关键概念。 近年来,数据的可重复性问题越来越受到关注。随着人们对潜在的“可重复性危机”以及它如何反映研究成果的质量和可信度的关注[1-3],人们一致努力应对挑战,并制定出提高可重复性的方法[4-7]。 不过,这并不全是坏事;正如一些科学家所指出的那样,可重复性失败也能激发科学探究和推动发现[8,9]。 下面,我们来介绍九种提高数据重现性的方法。 检查针对研究领域的指南 在过去的10到15年中,人们制定了一些出版指南,以提高可重复性,从而促进不同实验室组之间的研究成果的比较。例如,MIQE指南列出了评估定量PCR实验所需的最低信息,ACMG指南用于验证第二代测序的临床应用,MIAPE指南用于报告蛋白质组学实验,ARRIVE指南旨在最大限度地提高基于动物的体内研究的质量和可靠性。 特别是在健康研究方面,Equator Network(https://www.equator-network.org/)汇总了研究类型的报告指南,如案例报告、系统回顾和定性研究。在计划和执行实验时,这些指南可以证明是一种宝贵的资源。 制定详细的方案 制定一个详细的方案并定期更新,这是显而易见的,但怎么强调都不为过。不要自欺欺人地认为你会记住你的实验的所有细节!一个好的实验方案可以发挥很大作用。一个好的方案可以在实现一致性方面发挥很大的作用。当其他实验室成员或合作者希望复制你的发现时,它也是一个必要的资源。 理解统计学(或找到理解统计学的人) 不幸的是,研究人员接受关于如何正确设计实验和对他们产生的数据进行统计分析的培训还不是常规的。为了从我们的实验中获得最大的收益,并确保以后的可重复性,有几个统计学因素需要考虑[6,10]。 首先,我们需要正确制定我们的假设。我们还应该确定可能出现偏差的领域,确定标准、对照、实验复制和技术复制的内容,并评估我们是否应该加入盲法或随机化。最好的做法是预先规定将进行哪些分析,而不是屈从于事后对符合我们假设的数据的挑剔。 我们还应该为我们的实验计算适当的样本量,以确保它们有足够的力量(统计力量是拒绝一个错误的“空”假设的能力)。 重要的是,P值 < 0.05并不一定意味着真正的结果,因为具有统计学意义的结果并不总是有足够的力量。幸运的是,有一些免费的在线资源可以提供帮助。例如,纽约哥伦比亚大学有一个非常有用的资源汇编(https://research.columbia.edu/experimental-design),以帮助改善实验设计。 如果你面临低样本量的挑战,可以考虑与其他实验室小组合作,以提高统计能力和你观察到的效应大小的准确性。 在汇编、可视化和报告我们的数据时,我们应该始终保持一个原始数据库(包括来自校准和验证测试的数据),我们应该接受不支持我们假设的“负面”数据,我们应该在图形和表格中适当地加入误差条或其他误差措施。 请记住, 试剂和消耗品可能是误差的隐藏来源 没有经过充分的纯化、验证和质量控制的试剂是导至重现性差的主要原因[6]。即使所提供的试剂质量高,批次间的变异性低,试剂在实验室的管理和储存方式也是至关重要的。例如,交叉污染、过度传递、错误识别、微生物污染、不正确的储存和过度的冻融循环都是使重现性复杂化的问题。 此外,实验室消耗品,如微孔板、试管、培养瓶和吸头,如果不适合使用,都会带来变异性。如果试剂或消耗品是你实验的关键组成部分,在你的笔记中一定要包括批号,如果试剂被储存在等分中,每个等分也应该有一个独特的参考号,以便在需要时方便故障排除。 了解你的设备并妥善维护它 如果你的实验室设备不处于良好的工作状态,即使是最好的实验设计也会失败。所有的设备都应该由合格的技术人员定期进行清洁、维修和校准,并且应该用对照样品进行试点实验,以确保所有的东西都能达到预期效果。为了帮助排查潜在的变异源,对设备的运行方式有一个合理的工作知识总是有帮助的。 监测环境条件的变化 当不在受控环境中工作时,重要的是要记住,对于许多实验来说,环境条件,如温度、相对湿度、光照强度和空气质量,对你每次产生的结果会有很大影响。应检查这些因素,必要时加以控制或至少报告。 检查默认设置,了解你的分析软件在做什么 特别是在分析软件有多个用户的实验室里,了解各种分析设置的“作用”,并能识别这些设置是否已经从默认设置/你所需要的设置中被改变,这一点很重要。如果实验室小组使用定制的软件和工具,版本控制也是最重要的。 不要忽视前后矛盾的结果 可以理解的是,在实验室产生“好”结果的压力一直存在,而且很容易陷入确认性偏见,系统地忽视不支持主流假设的数据。 尽可能地简化和/或自动化 一个实验或其产生的数据集越大、越复杂,可变性的空间就越大。在不违反实验设计的情况下,应尽可能地简化实验,并将其分成可管理的小块。同样,在可行的情况下,重复性和劳动密集型的步骤应该被自动化,以避免引入人为错误,当然,所有的自动化平台都应该得到良好的维护和定期的验证。 |