如何阅读医学论文(五) 供非统计学家使用的统计学：“显著性

如何阅读医学论文(五)供非统计学家使用的统计学：“显著性的”关系和这种关系中的陷阱

http://www.100md.com 《英国医学杂志中文版》 2000年第1期

     作者：

    单位：

    关键词：

    英国医学杂志中文版000116How to read a paper

    Statistics for the non-statistician：“Significant” relations and their pitfalls

    Trisha Greenhalgh

    这篇文章继续列举一系列问题，这些问题有助于人们评价并判断某篇论文是否正确合理地使用统计学方法。这个题目是由两篇文章组成的，第一篇已在上期发表。

    相关、回归和因果关系
, 百拇医药
    有没有把相关和回归区别开？相关系数(r值)的计算和解释是否正确？

    对许多不搞统计的人来说，“相关”和“回归”这两个词是同义的，这两个词大概在他们的脑子里都指的是围绕着从坐标轴一定截距上发出的一条对角线而散乱分布的点所构成的散点图。如果两种事物不相关的话，试图去做回归是毫无意义的，这一点很明确。但回归和相关是两个定义确切的、有不同作用的统计概念¹。

    r值(Pearson积距相关系数)是被人们用得太多的一种统计方法。严格来说，如果下面这些条件不具备，使用r值就是不合理的：

     数据(或更准确地说，产生数据的总体)应该是正态的分布。如果不是正态分布，就应当用非参数的相关检验。

     两个数据集应当是彼此独立的(一个不应当自动随另一个而变化)。如果它们不是独立的，应当使用配对的t检验或其它配对的检验。本文要点
, 百拇医药
    如果两个变量之间的联系很强，而且这种联系在很多研究中的表现都是一致的、特定的、可以用已有知识加以解释的，同时这种联系服从时间序列逻辑并出现剂量-效应梯度变化，那么两个变量间的关系可能就有因果关系。

    P值小于0.05表示这个结果是由偶然机遇引起的可能性小于1/20。

    在临床试验中，一个结果的可信区间指的是两个处理组的“真实的”差异可能落在哪个数值范围之间，因而可信区间也可表示从结果中得到的某种推断的强度。

    统计学的显著性结果有可能在临床上并没有意义。这种干预试验的结果所表示的就是某个个体可能从干预试验中得到的益处(如：绝对危险性低了多少)。

     对于每一个研究对象应当只对两个数据做一次测量，如果要重复测量这两个数据，那么应当使用方差分析代替相关。  给出每个r值时应列出相应的P值(P值所表示的是这一相关程度是由偶然的机遇引起的可能性有多大)，或者列出可信区间，可信区间表示“真实的”r值可能落在什么范围内。
, http://www.100md.com
    还要记住，即使某套数据可以使用r值，不论r值多大，它都不能说明相关关系是因果关系(见下文)。

    “回归”这个词指的是一个能从一个变量(自变量)预测另一个变量(目标变量)的数学方程。回归因而提示某种作用的方向，当然，从下面的讨论中我们可以看到，回归也不能证明有因果关系。多元回归用的是更复杂的数学方程(谢天谢地有计算机计算它的奥秘)，从两个或更多的自变量(经常称为协变量)来预测目标变量。

    回忆一下上课时学过的最简单的回归方程y=a+bx，y是因变量(标在纵轴方向)，x是自变量(标在横轴方向)，a是y的截距。没有多少生物学上的变量能用这样一个简单方程进行预测。例如，一组人群的体重随着他们的身高变化，但这种变化不是线性关系。我的身高是我儿子身高的两倍，体重是他体重的3倍，但是我的身高是我那个刚出生的侄子的4倍，而我的体重却是他的体重6倍还多。实际上，体重更可能随人的身高的平方变化，而不是随身高本身变化(所以用二次回归也许比线性回归更恰当)。
, http://www.100md.com
    当然，即便把身高-体重数据输入到计算机已足以计算回归方程，用这个方程可以从一个人的身高对他的体重做出最佳预测，但是你的预测效果仍旧可能很糟糕，因为体重与身高并非那么密切相关。除身高外还有其他影响体重的因素，我们可以用多元回归的原理来说明这个问题，即把年龄、性别、每日的热卡摄入和体力活动的数据也输入计算机，并且计算这些协变量中的每个变量对总的方程(或模型)贡献多少。

    这里所阐述的基本原理，特别是前面提到的使用r值准则，可以帮助读者认识所读的文章中是否正确地应用相关和回归的方法。有关这个问题的更详细的讨论能在别处查到^2，3。

    对因果关系性质和方向是否作了假设？

    记住这样的生态学的谬误：不能仅凭一个镇有大量的失业人群同时有非常高的犯罪率，就得出是失业者在犯罪的结论。换言之，A和B之间的关联既不能告诉人们两者是否存在因果关系也无法说明因果关系的方向。要表明是A引起B(而不是B引起A，也不是A、B均由C引起)，你需要比相关系数更多的东西。下面框图中给出了假定因果关系时必须满足的条件，这些条件最早是由Austin Bradford Hill提出的⁴。
, http://www.100md.com
    因果关系检验⁴

    ^.是否有采用人群试验研究的证据？

    ^.是否有很高程度的关联？

    ^.从各个研究中得到的关联是否一致？

    ^.时间关系是否恰当(所假定的原因是否先于所假定的效应)？

    ^.存在剂量-效应梯度吗(是否所推论的原因发生越多，所推论的效果出现得也越大)？

    ^.这种关联是否具有流行病学意义？

    ^.这个关联具有生物学意义吗？
, 百拇医药
    ^.这个关联是否有特异性？

    ^.现在这个关联是否与以前证实的因果关系有相似之处？

    概率和置信度

    对P值的计算和解释是否恰当？

    学统计学的学生刚开始学会计算的一些统计值中就有P值，P值就是某个特定的结果是由偶然机遇引起的概率。在科学研究工作中，人们通常把P值小于1/20(表示为P<0.05，等价于赌20次中的1次)当作“统计上有显著性”，P值在100次中小于1次(为P<0.01)称为“统计学上非常显著”，但这都是人为设定的标准。

    那么按照这样的定义，即便实际上不存在任何联系，也会在20次研究中有一次机会表现出有显著性的联系(这相当于在每期杂志发表的主要结果中大约有一个是这种机会造成的)，在100个结果中有一个纯粹是运气造成的“非常显著”。考虑到机遇带来的问题，如果分析数据时要分析多个结果的话，就需要做校正(通常用Bonferroni法^5,6)。
, 百拇医药
    如果某个结果是在统计学的显著范围中(P<0.05或P<0.01，就看你选择什么样的标准)，就提示作者应当拒绝无效假设(无效假设是指两组之间确实没有差异)。但P值不在显著范围中时，它要么告诉你，组间没有差异，要么就是说研究对象太少，不足以显示存在的差异，但到底是哪个结论，它没法告诉你。

    P值还有另外的局限性。Guyatt和他的同事在“临床医生基本统计”系列文章的第一篇中论述了用P值做假设检验的问题，他们在结论中说：“假如截止点的选择是人为的，为什么要用单一的点做统计学的显著性界限⁷？假如把干预效果当作一个连续的过程更为恰当的话，为什么把它当作两分变量问题呢(有或没有)?”为了更好地估计研究结果的力度，我们需要计算可信区间。

    是否计算了可信区间？作者在结论中是否使用了可信区间？

    好的统计学家对几乎任何统计检验(t检验、r值、绝对危险减少值、避免一例不良结果所需治疗人数、灵敏度、特异度和其他诊断检验的主要特征参数)的结果都能计算可信区间。无论对“阳性”(试验两组间的差别有统计学显著性)结果还是“阴性”(看起来没有显示差别)结果，可信区间都能帮你估计这些结果是否有很强的说服力，是否是结论性的(不再需要做类似的研究了)。在其他的文献⁸里对可信区间的计算和解释都做了介绍。
, http://www.100md.com
    如果把相同临床试验重复100次，每次都不可能得到完全相同结果。但是，总的平均起来，试验两组的差别(或无差别)会表现在某个具体特定的水平上。90%的两试验组的差别都会落在某个确定的界限范围内，95%试验组的差别也会落在某个确定的，而且比90%的结果范围更大的界限内。

    现在，如果仅进行一次试验(通常情况是如此)，那么你怎样知道这个试验结果与“真正的差别”差多远？回答是不知道。但通过计算，比如，计算研究结果的95%可信区间，你可以说“真正”差值有95%的机会落在这两个界值之间。这句话的意思在某篇文章中可能就表达为“在一个心力衰竭治疗试验中，被随机分到血管紧张素转化酶抑制剂组的病人有33%死亡，随机分到肼苯哒嗪和硝酸盐组的病人有38%死亡。两组间差值的点估计(对使用血管紧张素转化酶抑制剂挽救多少生命的最佳单值估计)是5%。而这个差别的95%可信区间是从-1.2%～12%”。

    更可能的是，这些结果用下面的更简短的方式表示：“血管紧张素转化酶抑制剂组的存活率高5%(95%可信区间为-1.2%～12%)”。
, http://www.100md.com
    在这个实例中，95%可信区间包括了零，如果我们要用两分变量(也就是，研究的假设“被接受”还是“没有被接受”)表达这个结果的话，我们会把这个结果归为阴性。但是正如Guyatt和他的同事提出的，也许确实存在着真实的差异，并且这个差异可能更接近5%而不是-1.2%，也不是12%。从这些结果得出更有用的结论是“在所有其他情况相同的情况下，血管紧张素转化酶抑制剂是心力衰竭病人适宜的选择，但这个推论的说服力较弱⁹。” 干预效果的计算

    组别

    结局事件

    合计

    有

    无

    对照组

    a
, http://www.100md.com
    b

    a+b

    试验组

    c

    d

    c+d

    对照组结局事件频率(CER)=

    在对照组中出现结局事件的危险=a/(a+b)

    试验组结局事件频率(EER)=

    在试验组中出现结局事件的危险=c/(c+d)

    相对危险减少值(RRR)=(CER-EER)/CER
, http://www.100md.com
    绝对危险减少值(ARR)=CER-EER

    每减少一例危险结局发生需要治疗的人数

    (NNT)=1/ARR=1/(CER-EER)

    比数比=

    (干预组中有结局事件数与无结局事件数的比值)/(对照组中有结局事件数与无结局事件数的比值)

    须知，试验研究(几个试验合并的结果)的样本量愈大，其可信区间就愈窄，因此其结果就愈可能是结论性的。

    在解释“阴性”试验结果时，重要的一点是需要知道更大样本的试验是否有可能出现有显著意义的结果。要想确定这个问题，可以看一看结果的95%可信区间的上限。真实的结果仅有1/40的机会(那就是2.5%个机会，因为其他的2.5%极端的结果将落在95%可信限下限以下)等于或大于95%可信区间的上限。现在自问，“这样水平的差异从临床上看很重要吗？”如果不重要，可以把这个试验归判为结果阴性而且结论是肯定的。另外，假如95%可信区间的上限表示了有重要临床意义的组间差别，那么这个试验可能也是阴性的结果，但它的结论也是不肯定的。
, http://www.100md.com
    在医学论文中可信区间的使用相对来说仍旧不太普遍。在一项对北美3个杂志(新英格兰医学杂志、内科学年鉴和加拿大医学会杂志)100篇文章的调查中，仅有43篇报告了可信区间，而66篇报告了P值⁷。正确解释可信区间的文章的比例就更小了。在阅读文章时，你应当仔细的查看讨论一节，不仅要看作者所得的结论是否正确地说明试验结果能否支持、在多大程度上支持研究假设，而且也要看作者的结论是否正确说明有无再做进一步研究的需要。

    干预的最终效果

    作者是否用单个病人可能得到的益处或受到的损害这样的指标来说明干预的效果？

    对一个特定干预说其结果产生“有统计学的显著性差异”，固然不错，但是如果要我去服一种新药的话，我想知道的是(就某项具体结果而言)与不服药相比，我有多大可能出现这种结果。只要用4种简单的运算(你会加、减、乘、除就能看懂本节内容)就能客观地回答这个问题，并且你的回答也可以被不搞统计的人所理解。这些计算就是相对危险减少值、绝对危险减少值、每避免一例不良结局所需治疗人数和比数比。
, 百拇医药
    为阐明这些概念并且让你相信你需要懂得这些概念，让我们先看看Tom Fahey及其同事最近做的一项调查¹⁰。他们给英格兰地区182名卫生当局成员(这些人在卫生工作决策中都负某种责任)写信，询问他们愿意为4个心脏病人康复项目中的哪一个提供资助。

    项目A减少20%的死亡率；

    项目 B 使死亡绝对减少3%；

    项目C使病人的生存率从84%增加到87%；

    项目D中每减少1例死亡需要有31个人参加这项康复治疗。

    在作出回答的140个委员中，只有3个人发现所谓4种“康复项目”实际上其结果是相同。其他137个人都选择这个或那个项目，从而暴露出(除了他们的无知以外)需要对卫生当局人员进行更好的基本流行病学培训。
, 百拇医药
    让我们用附表的例子继续说明我们的问题，这个例子是Fahey和他的同事根据SalimYusuf和他的同事的一个研究¹¹编写的。在这里我列出一个2×2表，详细说明在随机试验中病人接受哪种干预以及10年以后他们是活着还是死了。

    附表干预效果：干预措施和结局¹⁰ 干预措施

    10年时的结局

    死亡

    存活

    药物治疗(n=1325)

    404

    921

    心脏冠状动脉搭桥术(n=1324)
, 百拇医药
    350

    974

    简单的数学计算可以告诉你，在10年中接受内科治疗的病人死亡的机会为404/1324＝0.305，或30.5%。让我们称这个为危险x。在10年中被随机分配接受心脏冠状动脉搭桥手术的病人死亡的机会为350/1325=0.264或26.4%，我们称它为危险y。

    报告结果时在统计检验方面的10种欺骗手段：

    ^.将所有数据输入计算机，并且把P<0.05的所有关系都报告为有显著意义

    ^.如果各组在基线时的差别对干预组更有利，就不对这些差别进行调整

    ^.不检验数据是否是正态分布。如果做了这种检验的话，你就可能要用到非参数检验，而非参数检验并不总那么让人开心
, 百拇医药
    ^.把所有中途退出的人和无应答的人都剔除，所以仅分析那些全部完成治疗的病人

    ^.总是假定你能用一套数据去描述另一套数据，并计算出“r值”(Pearson相关系数)，而且还假定某个“有显著性的”r值就能证明因果关系的存在

    ^.如果异常值(在图上远离其它大部分点的点)搅乱了你的计算的话，就把它们去掉。但是如果异常值对你有帮助，哪怕它们看起来都是荒谬的，也把它们保留下来

    ^.如果组间差异的可信区间包括零的话，就不报告可信区间，好一点的做法是，在文中简单提一下，但不在图中表示它们，而且在做结论时不考虑可信区间问题

    ^.如果一个6个月的试验研究在4个半月时两组间的差异就出现了显著性，那么就停止试验，并开始写文章
, 百拇医药
    ^.另一情况是，如果到6个月时结果仅是“接近有显著性”，那么就把试验再延长3周

    ^.如果结果证明没有什么意义的话，那么就接着再计算，看有没有哪个特定的亚组有什么特别之处，也许你最终会发现你的干预在52～61岁中国妇女中是有效的

    ^.如果按照计划的方法分析你的数据，没有给出你需要的结果，那么就用其他检验方法再进行计算

    死亡的相对危险度，即：与内科治疗对照组比较，外科手术的死亡危险是y/x或0.264/0.305=0.87(87%)。相对危险度减少值，即手术减少的死亡危险为100%-87%(1-y/x)=13%。

    绝对危险减少值(或危险差异)是外科治疗使10年的死亡危险减少的绝对数，即30.5%-26.4%=4.1%(0.041)。
, 百拇医药
    需要治疗人数，即：平均起来看，要在10年中减少一例死亡需要多少病人接受心脏冠状动脉搭桥术，它是绝对危险减少值的倒数，即：1/ARR=1/0.041=24。

    当然，比值是另一个表示治疗效应的方法。再看2×2表，你将会看到病人在内科治疗组中病人的死亡与生存的比是404/921=0.44，在外科组这个值是350/974=0.36。这两个比值的比是0.36/0.44=0.82。

    计算这些干预效果的公式列在了本文的框图之中，它们摘自Sackett及其同事最新出版的书中¹²。

    结局事件可能是人们愿意看到的(例如治愈)，也可能是人们不希望看到的(药物的副作用)。在后一情况下，用需要伤害的人数和相对/绝对危险增加值这样的词来表述也许意思更准确。

    总结

    如果认为作者们运用统计方法的能力(和/或学术上的诚实)都是万无一失的，就可能导致严重的错误。在上一页的框图里就列举了某些论文作者常犯的(故意的或不小心所造成的)错误。

    (马林茂译张学中廖苏苏校), 百拇医药

百拇医药网 http://www.100md.com/html/analecta/2000/01/01/23/206.htm