Nature评论:科学家联名反对统计学意义

杀马特。学长 韩版系。学妹 提交于 2021-02-13 10:34:19
导语


统计数据如何经常导致科学家否认那些未经统计学教育的人能够明白地看到的差异?几代人一直警告研究人员,统计学上无显着性的结果并不能“证明”零假设(假设组之间没有差异或治疗对某些测量结果没有影响)。统计上显着的结果也没有“证明”某些其他假设。这种误解已经引起了人们的夸大,文献中夸大其词,并且不那么着名,导致了不存在研究之间冲突的主张。
我们有一些建议让科学家不要成为这些误解的牺牲品。




普遍问题


让我们清楚一下必须停止什么:我们永远不应该仅仅因为P值大于0.05之类的阈值而得出“没有差异”或“没有关联”,或者等价,因为置信区间包括零。我们也不应该断定两项研究之间存在冲突,因为一项研究结果具有统计学意义,另一项则没有。这些错误会浪费研究工作并误导政策决策。'w1} + f $ q&D&W,m

例如,考虑对抗炎药物的意外影响进行一系列分析。因为他们的结果在统计学上是不显着的,一组研究人员得出结论,接触药物与新发房颤(最常见的心律紊乱)“无关”,结果与之相反。早期研究具有统计学意义的结果。,h2 n6 _2 z(f)J * n7 l“q 
&S * m8 m; j%X5 m6 N1 X2 h
现在,我们来看看实际数据。研究人员描述了他们在统计学上无显着性的结果,发现风险比为1.2(即暴露患者相对于未暴露患者的风险增加20%)。他们还发现95%的置信区间跨越了从微不足道的风险降低3%到相当大的风险增加48%(P = 0.091;我们的计算)。来自早期统计学研究的研究人员发现,完全相同的风险比为1.2。该研究更精确,风险区间增加9%至33%(P = 0.0003;我们的计算)。

当区间估计包括严重的风险增加时,得出结论认为统计上不显着的结果“无关联”是荒谬的。声称这些结果与显示相同观察效果的早期结果形成对比同样荒谬。然而,这些常见的做法表明,依赖统计显着性的阈值会误导我们(参见“谨防错误结论”)。



这些和类似的错误很普遍。对数百篇文章的调查发现,统计上不显着的结果被解释为在一半左右表示“无差异”或“无影响”(参见“错误的解释”和补充信息)。

2016年,美国统计协会在美国统计学家发表声明,警告不要滥用统计显着性和P值。该问题还包括许多关于这一主题的评论。本月,同一期刊的一期特刊试图进一步推动这些改革。它发表了40多篇关于“21世纪统计推断:超过P <0.05的世界”的论文。编辑们谨慎地介绍了这个系列,并注意“不要说'具有统计意义'”。另有一篇文章与几十个签署者也呼吁作者和期刊编辑否认这些条款。我们同意,并呼吁放弃统计意义的整个概念。



我们远非孤身一人。当我们邀请其他人阅读本评论的草稿并在他们同意我们的信息时签署他们的名字时,250在最初的24小时内就这样做了。一周之后,我们有超过800个签署者 - 所有签署了一个学术联盟或其他指示现场或过去的工作在一个依赖于统计建模的领域(参见补充信息中的签名名单和最终统计)。其中包括来自50多个国家和除南极洲以外的所有大陆的统计学家,临床和医学研究人员,生物学家和心理学家。一位倡导者将其称为“对无统计测量统计意义的外科手术”,以及“为更好的科学实践注册声音的机会”。

我们并没有要求禁止P值。我们也没有说它们不能用作某些专门应用的决策标准(例如确定制造过程是否符合某些质量控制标准)。而且我们也没有提倡任何事情,其中弱证据突然变得可信。相反,并且与几十年来的许多其他人一致,我们要求停止在传统的二分法中使用P值。方式 - 决定结果是否反驳或支持科学假设。


退出分类


麻烦在于人类和认知,而不是统计:将结果分为“统计上显着”和“统计上不显着”使人们认为以这种方式分配的项目是完全不同的。任何提出的涉及二分法的统计替代方案都可能出现同样的问题,无论是频繁的,贝叶斯的还是其他的。 - {/ a $ ~6 a。@ - Y- P $ s

不幸的是,超越统计意义门槛的错误信念足以表明结果是“真实的”,这导致科学家和期刊编辑特权这样的结果,从而扭曲了文献。统计上显着的估计值在幅度上有很大的偏差,并且可能在很大程度上有所偏差,而统计上不显着的估计值在数量上有偏差。因此,任何侧重于为其重要性选择的估计的讨论都会有偏见。除此之外,对统计学意义的严格关注鼓励研究人员选择数据和方法,这些数据和方法对某些期望的(或简单可发表的)结果产生统计学意义,或者对不希望的结果产生统计学上的无意义,例如潜在的副作用。药物 - 从而使结论无效。
5 n4 R't t $?“W + @ 0 a
预先登记研究并承诺公布所有分析的所有结果可以大大减轻这些问题。但是,即使是预先登记的研究结果也可能因决策而产生偏差在分析计划中总是保持开放。即使有最好的意图也会出现这种情况。- {+ \。y #i“} + y i)l9 V / p $ P

再次,我们不提倡禁止P值,置信区间或其他统计措施 - 只是我们不应该断然对待它们。这包括作为统计上显着或不重要的二分法,以及基于其他统计测量(例如贝叶斯因子)的分类。

避免这种“二分法”的一个原因是所有统计数据,包括P值和置信区间,自然地因研究而异,并且通常在令人惊讶的程度上这样做。事实上,单独的随机变化很容易导致P值的大差异,远远超过0.05阈值的任何一侧。例如,即使研究人员可以对一些真实效果进行两次完美的复制研究,每次都有80%的力量(偶然)达到P <0.05,一个人获得P <0.01而另一个P> 0.30就不足为奇了。 。无论P值是小还是大,都需要谨慎。&W)y2 I&_ * b%@ 
1 Z :?。G9我#^; 湖 F
我们必须学会接受不确定性。一种实用的方法是将置信区间重命名为“兼容区间”,并以避免过度自信的方式解释它们。具体而言,我们建议作者描述区间内所有值的实际含义,尤其是观察到的效应(或点估计)和限制。在这样做时,他们应该记住,在给定用于计算间隔的统计假设的情况下,间隔限制之间的所有值都与数据合理地兼容。因此,在区间中挑出一个特定值(例如空值)为“显示”是没有意义的。!W:R#L * F; h6 c:x 
$ S,@ 9 Y3 F)A0 F4 F0 V.
我们坦率地厌倦了在演示文稿,研究文章,评论和教学材料中看到这种荒谬的“无效证明”和非关联主张。包含空值的间隔通常还包含具有高实用重要性的非空值。也就是说,如果您认为区间内的所有值实际上并不重要,那么您可能会说“我们的结果最兼容而没有重要影响”。%\。k,K; {7 s2 W1 d)j

在谈论兼容性间隔时,请记住四件事。首先,仅仅因为区间给出了与数据最相容的值,给定假设,它并不意味着它之外的值是不相容的; 它们的兼容性较差。实际上,区间之外的值与区间内的值没有实质性差异。因此声称间隔显示所有可能的值是错误的。)〜:A:q * i6 s\
其次,根据假设,并非所有内部值都与数据同等兼容。点估计是最兼容的,其附近的值比接近极限的值更兼容。这就是为什么我们敦促作者讨论点估计,即使它们具有较大的P值或较宽的间隔,以及讨论该间隔的极限。例如,上述作者可能写道:'与以前的研究一样,我们的研究结果表明,给予抗炎药物的患者新发房颤的风险增加了20%。尽管如此,根据我们的假设,风险差异从3%减少,小负相关到48%增加,实质性正相关,也与我们的数据合理兼容。解释点估计,同时承认其不确定性,0 R)`0 j3 s&B $ u&W%^ 
“u7 Q-h7 o8}
第三,就像它来自的0.05阈值一样,用于计算间隔的默认95%本身就是一个任意约定。它基于错误的想法是,计算的区间本身有95%的可能性包含真值,加上模糊的感觉,这是一个自信决定的基础。根据应用程序,可以证明不同的级别是合理的。并且,如在在抗炎药物的例子中,当他们施加的二分法被视为科学标准时,区间估计可以使统计显着的问题永久化。'w#M#x9 K b)G:X / r 
+ I. y4 c!L *〜$ [/ O.
最后,最重要的是,要保持谦虚:兼容性评估取决于用于计算间隔的统计假设的正确性。实际上,这些假设充其量只有相当大的不确定性。尽可能清楚地做出这些假设并测试您可以做的假设,例如绘制数据并拟合替代模型,然后报告所有结果。无论统计数据显示什么,都可以提出结果的原因,但讨论一系列潜在的解释,而不仅仅是有利的解释。推论应该是科学的,并且远远超出仅仅统计。背景证据,研究设计,数据质量和对潜在机制的理解等因素通常比统计指标(如P值或区间)更重要。

1 j
我们听到最反对退休统计学意义的反对意见是,它是需要做出肯定或否定的决定。但对于监管,政策和商业环境中经常需要的选择,基于所有潜在后果的成本,收益和可能性的决策总是优于仅基于统计显着性的决策。此外,对于是否进一步追求研究思想的决定,P值与后续研究的可能结果之间没有简单的联系。  

即将退休的统计意义是什么样的?我们希望方法部分和数据列表更加详细和细致。作者将强调他们的估计和它们的不确定性 - 例如,通过明确地讨论它们的间隔的下限和上限。他们不会依赖重要性测试。当报告P值时,它们将以合理的精度给出(例如,P = 0.021或P = 0.13) - 没有星形或字母等装饰来表示统计显着性而不是二元不等式(P <0.05或P> 0.05) )。解释或发布结果的决定不会基于统计阈值。人们花在统计软件上的时间会更少,而且更多的时间在思考。

我们要求退出统计学意义,并将置信区间作为兼容性区间并不是灵丹妙药。虽然它会消除许多不良做法,但它很可能会引入新的做法。因此,监测文献中的统计滥用应该是科学界的一个持续优先事项。但是,当原始和复制研究的结果高度兼容时,根除分类将有助于制止过度自信的主张,无差别的“无差异”声明和关于“复制失败”的荒谬声明。滥用统计意义对科学界和依赖科学建议的人造成了很大的伤害。P值,区间和其他统计测量都有它们的位置,但现在是统计意义的时候了。





RECOMMEND
推荐阅读
  1. 数据江湖——回归十式

  2. 共线性的解决方法

  3. 多变量回归模型及其应用

  4. 数据分析师必须掌握的统计学知识

  5. 知网可以自定义充值  |  免费下载期刊论文~~~

  6. 杜克大学教授:提高学术写作水平的十条建议


来源:https://www.nature.com/articles/d41586-019-00857)

本期编辑:Leeung


写 留 言


  在 看 ↓↓↓

本文分享自微信公众号 - spss学习乐园(spssxp2018)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!