随机化临床试验结果分析和解释的几个问题(临床流行病学)

随机化临床试验结果分析和解释的几个问题

http://www.100md.com 《中国医学杂志》 2000年第6期

     作者：李晓晖詹思延李立明

    单位：北京医科大学流行病学教研室 100083

    关键词：

    中华医学杂志000631 随机化临床试验(randomized clinical trial, RCT，下同) 是检验临床干预的安全性和有效性的理想方法，其结论对指导临床实践和药物政策有重要意义。RCT中存在的主要偏倚是退出，退出包括不合格、不依从和失访等，退出会使原定的样本量不足，使研究工作效力降低，如果试验组和对照组研究对象退出不均衡，更会对研究结果的真实性产生很大的影响。为克服这种偏倚，在RCT设计和分析中采用了很多方法，如试运行期(run-in periods)、意向治疗分析(intention to treat analysis，ITT)等，此外，采用相对和绝对危险度指标全面、定量地描述研究结果也是RCT数据分析和结果解说中的重要问题。本文仅就上述方法作一介绍。
, 百拇医药
    一、试运行期^[1]

    1.概念：RCT中的不合作者将使药物效果和统计学把握度降低，去除这种影响的简单方法是增加样本量，但这势必增加试验费用，所以，研究者可在研究设计中加入试运行期，通过在试验前排除不合作者来避免这种问题。试运行期方法是指在RCT随机分组之前，通过短期的试验了解研究对象的合作、依从、不能耐受的副反应等情况，从而排除可能无法坚持试验的研究对象，并在随后的试验中只选取能够参加试验者进行随机分组。

    2.试运行期方法的应用及结果的解释：(1)探索病人的合作性：在随机分组前采用试运行期的方法可以用来筛查可能无法坚持试验者，并在试验随机分组前排除这些不能坚持试验的人，从而提高试验的依从性。

    医师健康研究(The Physicians' Health Study)是第一个应用试运行期方法的大规模RCT，用以观察阿司匹林和β胡萝卜素在预防冠心病和肿瘤方面的作用。通过18个月的试运行期，试验排除了33%不能坚持试验者，在随后5年的随访观察中，发现阿司匹林预防冠心病的相对危险度是0.56(95%可信限为0.45～0.70)。如果将排除者全部纳入试验，并假设排除者在两组分布均衡且无治疗效果，那么再计算的RR值为0.71，与0.56相比差25%。换言之，加入排除者后，很可能低估或掩盖真实的疗效。所以在未应用试运行期方法的RCT中，即使阴性结果也应引起人们高度重视。(2)筛查安慰剂反应：安慰剂反应是指在RCT中研究对象服用安慰剂后出现的疗效和副作用等。这些现象可能是患者服药后的生理和心理的反应，其对RCT结果常有一定的影响，应用试运行期方法可以估计这种效应。例如，在一项治疗抑郁的RCT中，经过7 d的试运行期，排除了19名出现安慰剂反应的人，结果显示药物组和安慰剂组在治疗上差异有显著意义(P=0.04)。如果不排除这19人，并将其随机分入两组，结果则是差异无显著意义(P=0.09)。因此，应用试运行期排除出现安慰剂反应的人，可以增加试验的统计学效力。(3)筛查临床反应：试运行期方法能用于筛查病人的临床反应，如药物是有效、无效、有害或有副作用等。总的来说，应用试运行期方法选择病人作RCT也许不能完全反映试验药物或治疗的有效性和安全性，因为在排除了不合作者或出现严重副作用者后进行的RCT，其疗效估计和统计学检验会与不使用试运行期的RCT不同，而且迄今为止尚无有效的方法来调整这种差异。
, 百拇医药
    应用试运行期排除不合作者或严重副作用者进行RCT时，对试验效果的解释比较复杂。若治疗效果和副作用各自独立，当不合作者对治疗缺乏反应而被排除后，试验疗效会被高估；当不合作者是因为预后差而被排除时，试验结果会低估治疗的危险；当不合作者对试验副作用敏感，试验的实际副反应率会被低估，反之则被高估。若治疗作用和副反应相关，则结果的解释更难。在RCT中，有时治疗效果与副作用有一定的联系，即出现严重副作用者也可能是有良好疗效者，这些对象若被排除，就无法正确估计治疗作用。事实上，在许多RCT中，治疗反应和副作用的关系很难检测，因此，对结果的估计也难以真实。(4)促进临床应用：试运行期方法还可指导临床应用。80年代由于许多观察显示心室异位和猝死高度相关，很多临床医生开始对心肌梗塞后病人使用抗心律失常药物以抑制心室异位。心律失常抑制试验(Cardiac Arrhythmia Suppression Trial, CAST)就是为检测这种临床实践而设计的RCT。经过试运行期后，符合标准的病人随机分入药物组和对照组，但试验过程中治疗组的高死亡率使得CAST试验很快被终止。由于使用试运行期，提高了统计学效率，研究很快获得结果，并迅速被临床接受和推广。
, http://www.100md.com
    总之，试运行期方法可提高RCT的依从性，减少退出，保证治疗组和对照组的可比性，但在结果解释上，可能会高估治疗的益处、低估治疗的危险、获得较小的统计概率值(P值)。

    二、意向治疗分析(ITT)

    1.概念^[2]：ITT(也叫实用试验或者项目效应分析)首次应用是在1961年，它是指所有病人被随机分入RCT中的任意一组，不管他们是否完成试验，或者是否真正接受了该组治疗，都保留在原组进行结果分析。ITT的目的在于避免选择偏倚，并使各治疗组之间保持可比性。

    RCT的简单分组如图1所示。在ITT中，随机化不仅决定治疗的分配，而且决定病人数据的分析。

    图1 RCT分组框架图
, http://www.100md.com
    由图1可见，试验结束时将有4组病人。ITT是比较①+②组和③+④组。除了ITT外，还有其它一些分析方法。效力分析(也就是依从者分析，又叫解释性试验或生物效力试验)是比较②组和③组，而忽略①组和④组。接受治疗分析是比较(①中转组者)+③组和②组+(④中转组者)组。3种分析方法各有用途，但在评价项目的真实性时，ITT是最有效的方法，详见下述实例。

    2.分析方法实例^[2]：在一项冠状动脉旁路手术的2年随访研究中，将手术治疗看作新方法，内科治疗作为对照。表1显示的是2年临床转归数据，表2显示上述三种方法的分析结果。ITT分析得到内科治疗组死亡率是7.8%，手术治疗组病人的死亡率是5.3%，P=0.17，两组治疗效果相当。而在其它分析方法中，如果只对依从者进行分析，则内科治疗组死亡率(8.4%)高于手术治疗组(4.1%)，P=0.018；接受治疗分析与依从者分析的结果相似，内科治疗组死亡率(9.5%)高于手术治疗组(4.1%)，P=0.003。
, 百拇医药
    表1 RCT转归统计数

    分配至内科治疗

    分配至手术治疗

    接受手术

    治疗

    接受内科

    治疗

    接受手术

    治疗

    接受内科

    治疗

    随访2年人数

    48
, http://www.100md.com
    296

    354

    20

    死亡人数

    2

    27

    15

    6

    合计

    50

    323

    369

    26

    表2 3种分析方法比较分析方法
, http://www.100md.com
    分配组

    χ²

    P

    内科治疗

    手术治疗

    意向治疗分析

    29/373(7.8%)

    21/395(5.3%)

    1.9

    0.17

    依从者分析

    27/323(8.4%)
, http://www.100md.com
    15/369(4.1%)

    5.6

    0.018

    治疗分析

    33/349(9.5%)

    17/419(4.1%)

    9.1

    0.003

    可见，3种分析方法所得的结果并不一致。ITT分析反映了两种治疗实际临床应用后的效果，包括病人在试验过程中的各种转归；但在评价治疗方法的真正疗效方面，如果试验方法确实有效，应用ITT分析会低估该试验的治疗效果。依从者分析是只对试验依从的人进行分析，并未完全遵循最初的随机分组。在上述实例中，分配至手术治疗的病人中，转为内科治疗的26人，死亡6人，死亡率为23%，这些人可能是预后不良者，或者在等待手术过程中就已死亡；而分配至内科治疗的病人中，后转向手术治疗者死亡率仅为4%。这种不依从在两组间是不均衡的。因此，在用依从者分析时，会高估手术治疗的效果。同理，用治疗者分析时也高估了手术治疗的效果。
, 百拇医药
    3.应用及局限性^[3]：RCT的两个基本目标是获得试验的效力(efficacy)和效应(effectiveness)。试验的效力反映的是在一种理想状态下的治疗效果，即参加试验者真正接受并完成了该种治疗。试验的效应是指在一般的临床状态下治疗的实际效果，参加者可能会不依从、改变治疗方式或间断治疗等，ITT分析评价的就是这种结果，即给予某种治疗方式后病人的实际结局。

    对于试验的效力来说，如果试验中失访、不依从的情况很少，或者各组之间的失访和不依从是均衡的，那么ITT分析可以得到试验效力的有效信息。但若不均衡，ITT分析不能够完全评价试验效力，如果试验方法确实有效，ITT可能会低估治疗效果，而依从者分析和治疗者分析将高估治疗效果。

    因此，在评价试验的效力时，ITT分析、依从者分析和治疗者分析均存在一定的局限性，人们又提出了一种新的方法——模型分析(model-based analysis)，但也不能完全解决上述问题。鉴于此，建议同时使用上述3种分析，以获得更全面的信息，使RCT结果的解释更为合理。
, http://www.100md.com
    三、定量评价疗效的指标

    RCT数据首先应进行统计学检验，如果差异有显著性，仍需结合专业知识，进一步判断措施效果之间是否真正存在差别。但是，仅有这种定性的研究结论还不足以指导具体的临床实践。因此，选择恰当的指标定量表述疗效十分必要。既往应用较多的是相对危险度指标，近年来绝对危险度测量，尤其是1988年Laupacis等^[4]人提出的一个新指标：需治疗人数(number needed to treat, NNT)，具有直观易懂，操作方便，可指导个体病人的临床决策等优点而日益受到重视。

    1.NNT的概念：NNT指为预防1例不良事件发生，临床医师在一段时间内应用某一疗法需治疗的病人数，最初主要用于RCT效果的评价。

    假定一个RCT，病人被随机分为治疗组和安慰剂对照组，追踪观察一段时间，看两组有害事件发生的情况。设治疗组事件发生率(experimental event rate)为EER，对照组事件发生率(control event rate)为CER，则相对危险度指标计算公式如下：
, http://www.100md.com
    相对危险度(relative risk, RR)，RR＝EER/CER 公式1

    效果指数(index of effectiveness, IE)，IE=CER/EER 公式2

    相对危险度减少值(relative risk reduction，RRR)又叫保护率，RRR=(CER-EER)/CER 公式3

    绝对危险度减少值(absolute risk reduction，ARR)，ARR＝CER-EER 公式4

    从数学关系上讲，需治疗人数NNT等于绝对危险度减少值的倒数，即NNT＝1/ARR 公式5

    2.NNT与其它指标的比较：Cook等^[5]人以一篇对轻、中度高血压进行降压治疗的论文为例，说明NNT相对于其他指标的优点。该研究根据进入试验时的舒张压水平将病人分为轻度高血压[舒张压≤110 mm Hg(1 mm Hg=0.133 kPa)]和中度高血压(舒张压≤115 mm Hg)两层。每层病人又随机分为降压药和安慰剂治疗两组。以脑卒中发生作为观察的终点。随访5年发现，中度高血压病人中对照组与降压治疗组的脑卒中发生率分别为20%和12%；轻度高血压病人中两组该率分别为1.5%和0.9%(表3)。
, http://www.100md.com
    表3 高血压病人降压治疗的疗效分析高血压

    分型

    脑卒中发生率(%)

    RR

    RRR

    ARR

    NNT

    对照组

    (CER)

    治疗组

    (EER)

    中度

    0.20
, 百拇医药
    0.12

    0.60

    0.40

    0.08

    13

    轻度

    0.015

    0.009

    0.60

    0.40

    0.006

    167

    该研究中度高血压病人未治疗时的脑卒中发病危险，又叫基线危险(baseline risk)是轻度病人的13倍，但两型病人的RR均为0.60，RRR均为0.40。可见相对危险度指标不考虑病人既往病史，亦不能反映未治疗的危险，而在临床实践中，作出治疗决定之前考虑这些因素是非常重要的。例如，对于中重度高血压病人，服用某种降压药物可以使脑卒中的发病率降低40%，即保护率为40%，将具有统计学意义和临床重要性。但对于轻度高血压病人而言，降低40%的危险度可能还不足以抵消治疗的副作用和费用消耗。因此，当有害事件的基线危险很低或很高时，仅用相对危险度指标会高估或低估治疗的绝对影响。
, http://www.100md.com
    绝对危险度指标则考虑了病人基线危险的不同，如本例中度和轻度高血压病人的ARR分别为0.08和0.006，二者相比也是13倍。但该指标以小数或分数的形式表示，不易被医生和病人所理解，难以用于临床实践。而ARR的倒数，即NNT约为13，它说明为预防1例脑卒中发生，医生需对13 个中度高血压病人治疗5年，这较之ARR=0.08直观易懂、易被接受。此外，NNT比相对效应评价指标优越之处还可以从轻、中度高血压病人的比较中看出。降压治疗对两型病人的保护率均为40%，似乎表明两组病人应该以同样的力量来治疗。然而为预防1例脑卒中发生，对中度高血压病人只需治疗13人，对轻度高血压病人却需要治疗167人，显然这将导致不同的治疗决策。

    由公式3、4、5还可以推出NNT＝1/(RRR×CER)，可见基线危险和相对危险度减少值对NNT都有影响。一项保护率不是很高的措施如果用于事件发生率较高的人群，可以使NNT较低，从而获得较大的收益。例如，在一个基线危险为60%的疾病中，RRR仅为10%就能得到需治疗17人数，反之，即使一项措施的保护率很高，如果用于事件发生率较低的人群，收益仍然有限。例如，若基线危险是10%，则RRR需为60%，才能得到需治疗人数17。
, http://www.100md.com
    3.NNT的可信区间计算：NNT作为一个点估计值，也有95%可信区间，其计算十分简单，就等于ARR的95%可信区间的倒数。例如，某药物的ARR及95%可信区间为10%(5%～15%)，则NNT＝10，95%可信区间为6.7～20。但当治疗无效时，如ARR仍为10%，而95%可信区间较宽且包含0，为-5%～25%，依此计算出来的NNT＝10(-20～4)。这样计算的可信区间有两个问题，其一，下限为负数；其二，未包括最佳的点值10。为了避免出现此类矛盾的结果，一些学者曾建议，当两组治疗措施无显著差别时，无需计算NNT的可信区间。1998年Altman^[6]提出了解决上述矛盾的办法。当NNT为负数时，意指治疗措施产生有害效应，因此，可以将NNT分解为NNT(H)和NNT(B)两部分。NNT(H)指与不治疗相比，多产生1例有害效应(harm)的需治人数，可用来表示副作用的大小。NNT(B)指与不治疗相比，多产生1例有益效应(benefit)的需治人数。此外，当措施无效时，ARR＝0，则NNT为无穷大，NNT的可信区间亦应包含无穷大。这样一来，上述可信区间可以描述为(NNTB4～∞～NNTH20)。
, 百拇医药
    4.NNT的拓展应用：除了长期药物试验之外，NNT还可以推广用于评价其他临床手段。例如，为预防1例有害事件发生，需进行手术的人数；为预防1例感染发生，需注射疫苗的人数；为预防N年内1例癌症死亡发生，需进行早期筛查与诊断的人数；若要发生1例有害事件，需暴露于某危险因素的人数等。此外，以NNT为基础，亦可以计算为预防1例不良事件发生所需的直接花费，即最小成本分析 (cost-minimization)，从而对各种防治措施效果进行卫生经济学评价，以更好地指导临床决策和公共卫生项目最佳干预策略的选择。

    参考文献

    1，Pablos-Mendez A, Barr RG, Shea S. Run-in periods in randomized trials. JAMA, 1998, 279: 222-225.

    2，Newell DJ. Intention-to-treat Analysis: implications for quantitative and qualitative research. Intern J Epi, 1992, 21: 837-841.
, http://www.100md.com
    3，Gibaldi M, Aullivan S. Intention-to-treat analysis in randomized trials: who gets counted? J Clin Pharmacol, 1997, 37: 667-672.

    4，Laupacis A, Sackett DL, Roberts RS. An assessment of clinically useful measures of the consequences of treatment. N Engl J Med, 1988, 318: 1728-1733.

    5，Cook RJ, Sackett DL. The number needed to treat: a clinically useful measure of treatment effect. BMJ, 1995, 310: 452-454.

    6，Altman DG. Confidence intervals for the number needed to treat. BMJ, 1998, 317:1309-1312.

    (收稿日期：1999-09-13), 百拇医药

百拇医药网 http://www.100md.com/html/analecta/2000/06/01/27/470.htm