嵌入式病例对照研究设计及有关统计问题(讲座)

嵌入式病例对照研究设计及有关统计问题

http://www.100md.com 《肿瘤》 1999年第6期

     作者：项永兵高玉堂

    单位：上海肿瘤研究所流行病学研究室(上海 200032)

    关键词：

    肿瘤990617 中图分类号：R73-31 文章标识码：A 文章编号：1000-7431(1999)06-0370-04

    近年来，在队列研究中所开展的综合研究设计^[1，2]在癌症等慢性病的病因学探索中发挥了非常重要的作用。从不同的研究设计类型，到相关的统计方法的发展，都引起了流行病学家和生物统计学家们的重视，且相关的科研论文层出不穷。因为它是一种结合了队列研究及病例对照研究两者优势的复合式研究设计，所以很受欢迎。综合式研究设计讨论得比较多的有两类：嵌入式病例对照和病例队列研究设计。笔者对它们做过介绍或综述^[1，2]，本文则重点探讨嵌入式病例对照研究设计及有关统计问题。
, http://www.100md.com
    1 研究背景

    队列研究是流行病学工作者非常熟悉的一种分析流行病学研究设计或手段，也称定群研究或随访研究。因为癌症等慢性病的发病率较低，所以慢性病病因学的队列研究常需要大样本量的研究对象。根据调查的因(暴露)果(疾病)时间关系的顺序，队列研究可分为前瞻性和回顾性两种。从队列人群的确定、暴露资料或信息的获取、队列的随访、发病或死亡资料的登记、数据库资料的建立和维护、统计分析等都比病例对照研究复杂得多，工作量也非常大，尤其是同时采集研究对象血、尿等样品的队列研究。也正因为如此，队列研究在研究经费上比病例对照研究要高得多。综合式研究设计(synthetic design)始于70年代初，当时考虑采用它的目的主要有两个，一是可以减少工作量及实验室检测费用，二是便于数据的计算机处理。现在看来，综合式研究设计还有更多的优势^[1，2]。

    在队列研究的基础上开展病例对照研究即是所谓的嵌入式病例对照研究，英文名称为nested case-study,文献中还常称之为队列内病例对照研究，即case control study within cohort。Mantel^[3]最早系统讨论该种研究设计，并称之为“综合式回顾性研究(synthetic retrospective study)”。关于中文名词，国内的学者也有把它翻译成“巢式病例对照研究”。这些名词中似乎“队列内病例对照研究”更容易理解，而“嵌入式或巢式病例对照研究”比较直观。本文暂且用“嵌入式病例对照研究”一词。与通常情况下的病例对照研究一样，研究对象为病例和对照，病例一般取整个队列中一定时期内发生的所有病例，而对照则为从研究队列中随机选取的个体。当病例数比较多时，也可以随机选取，但具体应用很少，因为癌症等慢性疾病的发生仍属发病率较低的疾病，能够积累到的病例数一般并不是很多，所以嵌入式病例对照研究中的病例常是整个队列中发生的某种疾病的病例数。这种研究设计的关键在于对照的选择。对照的选择可以按简单随机抽样的原则从队列中选取一定数量的研究个体，例如按着与病例1∶1配对的方式选取，这是最简单一种情形。
, 百拇医药
    2 研究设计

    那么如何正确地开展一项嵌入式病例对照研究，正是本文讨论的中心问题。从理论上讲，对照的选取是当队列中发生1例病人时，即应在全队列所有研究对象中随机地选择1名对照，有1例病人选1名对照^[4，5]。这里一个重要的问题就是时间配对(time-matched)，即对照的选择是在病例发生的时间上进行的。Prentice和Breslow的研究^[6]表明，利用配对病例对照研究(matched case-control study)的统计方法分析这样的数据可以获得比例危险回归模型分析下相对危险度的一致性估计。本文暂且称其为“设计Ⅰ”。问题是这样的研究设计可能会出现下面几种不合理情况：(1)在时刻t时的病例本身可能被选为病例自己的对照，(2)t时刻的病例被选为前面一个病例的对照，(3)一个个体有可能被二个或多个病例多次选为对照。无论是大样本量还是小样本量的队列研究，都可能出现上述情况，只是在大样本量队列研究中出现的机会较少。尽管可能有这些不合理的情形，但一个嵌入式病例对照研究从理论上讲应该按上述原则进行。
, http://www.100md.com
    实际工作中由于某种原因，人们可能并没有严格按着上述原则进行，在对照的选择过程中有了一些变动。例如从实际操作的可行性和方便的角度出发，对照的选择过程是在随访到一定时间(如5或10年)进行阶段总结时再进行。这时研究队列中已积累了一定数量的病例，根据病例的数量在队列内未发生某种研究疾病的研究对象中随机地选取一定数量的对照。这是人们经常采取的一种设计方案，本文这里称之为“设计Ⅱ”。Lubin和Gail^[4，5]称其为“纯对照设计(pure controls)”，因为对照是从队列内没有研究疾病的个体中选取的(从随访开始至研究总结时的时间内)。它没有考虑时间配对的问题，对照不是根据病例发生的时间来选择的。如果考虑时间配对设计，在时刻t时为病例选取对照，当被选取的对照是已经发生的研究疾病的个体，人们往往剔除这些个体重新选取对照。这是因为在常规的病例对照研究设计中，对照一般取不是研究疾病的健康个体。本文称这种设计为“设计Ⅲ”，文献中称之为“排除病例设计(case exclusion)”。同样考虑时间配对设计，如果一个在时刻t时被选取的对照在以后的随访过程中发生了其它疾病(非研究疾病，但可能与人们研究的暴露因素有关)或在随访过程中因某种原因失访，那么只好剔除他们而改用其它对照。这种设计我们称之为“设计Ⅵ”、文献中叫“排除对照设计(control exclusion)”。设计Ⅰ是从统计学角度要求人们做到的设计方案，而实际工作中人们常采用的方案可能是设计Ⅱ、Ⅲ及Ⅵ。
, 百拇医药
    嵌入式病例对照研究设计方案除了上述几种外，还有很多种。在它们的基础上人们还可以设计一些更复杂的研究方案。笔者利用下面几点来说明问题的所在，通过下面这些情况的不同组合，就会想到一系列研究设计方案。(1)随机方法：随机方法的不同，研究设计也可不同，需要根据实际情况来取舍。常用的是简单随机抽样方法，有时可根据研究的地区或不同的研究人群亚组采用分层随机抽样。(2)配对比例：当病例数量较多时，可采用病例和对照1∶1的配对比例。如果例数较少或为了提高统计效能，也可采用1∶M配对比例，选用多个对照。研究者可根据主要的研究假设估计样本大小或/及统计效能。(3)替代者(replacement)问题：在概率统计中，谈到抽样时经常说到替代者的问题。当一个研究个体在时刻t时被选为对照时，在下次抽样时是否还考虑该个体，则涉及到概率统计中替代者的问题。若仍然考虑该个体，则是不用替代者(without replacement)。若不考虑该个体，继续在余下的研究个体中选取对照，则是用替代者(replacement)。(4)时间配对问题：如果样本量较小及随访的时间较长，这个问题就更突出。这种情况下选取对照应该以时间配对为好。若研究的疾病或/及暴露因素与时间的关系非常密切，当然更应以时间配对为原则。(5)其它配对问题：除了时间配对外，有时可同时考虑按不同地区(亚组)配对。此外，还可考虑根据病例的生物样品(血、尿等)的采样时间等来配对。(6)对照选择来源：对照选择的人群有的是从整个危险集(risk set)中随机选取，有的则从非研究疾病所组成的群体(noncases)中随机选取，等等。因为有了上述这些因素的存在，所以从设计Ⅰ到Ⅵ就可以分出不少的亚型或更多的设计方案。所以Langholz和Thomas^[7]详细讨论了其它一些改进的嵌入式病例对照设计方案，他们称之为队列抽样设计(cohort sampling design)。而Robins、Prentice和Blvins^[8]则就动态队列(open cohort)中如何开展综合式病例对研究设计作了探讨，作出了一系列设计亚型。
, http://www.100md.com
    3 比数比估计方法

    嵌入式病例对照研究设计的资料可参照经典的配对病例对照研究资料分析的统计方法进行，例如单因素分析中的Mantel-Haenszel方法^[9]、多因素分析中的条件logistic回归模型^[10]。对于一些特殊情况下的资料处理，目前也有不少新的统计方法可用。经典的配对病例对照统计分析方法是对每一个时间点上的病例数只有1例，如果时刻t时发生的病例数不止1例，比数经估计方法就可以采用Gail等提出的新的算法^[11]。Prentice^[12]就不同于上述设计Ⅱ～Ⅵ的另一类研究设计资料的统计分析做了深入讨论。他考虑的情况是，当一个个体在时刻t′之前的某一时刻t被选为对照，而至时刻t该个体发病，研究者又必须在时刻t为他选取对照；那么该个体既作为时刻t′时的对照，又作为时刻t时的病例，他包括在两个时刻的危险集中，或者说他对两个时刻时的危险集均有贡献；从统计学角度讲，他的协变量(covariates)特征对在两个时刻构造的比分统计量(score statistics)的贡献，就明显存在着相关性。对这样的数据分析，Prentice给出了相对危险度估计的统计方法。
, http://www.100md.com
    大家知道，队列研究经常引进外部对照率或标准率做外部比较分析，所以如何在这些综合式研究设计下考虑外部比较的问题，其统计方法正在发展。

    4 偏性分析

    我们知道队列研究中估计的参数的是相对危险度，但在嵌入式病例对照研究中则是估计比数比。从理论上讲，设计Ⅰ情况下的比数比是相对危险度的无偏估计。但在上述设计Ⅱ、Ⅲ、Ⅵ情形下的比数比估计是否是相对危险度的一致性估计或无偏估计，正是本文讨论的另一中心问题。首先假设队列中研究个体可能出现的结局有三种情况：截尾(censoring)或失访(lost to follow-up)、研究疾病、其它疾病，分别用C₀、C₁、C₂表示。并考虑某一暴露因素Z的水平数为0，1变量，即暴露Z=1、非暴露Z=0。那么非暴露组个体的瞬时危险率(hazard rate)为

, 百拇医药
根据比例危险(proportional hazard)假设，暴露组个体的危险率为

ψ_iλ_i(t)， i=0，1，2，或中ψ_i为全队列资料分析情形下的相对危险度或危险率比(RR)。Lubin和Gail^[4，5]证明，在设计Ⅰ情形下，暴露因素的比数比OR的估计为

    其中Y(0，1)为二元变量，Y=1表示为病例，Y=0为对照。式中分子部分为病例的暴露率的比值(odd)，分母部分为对照的暴露率的比值，两个比值的比(odds ratio)即为比数比。上式表明，比数比等于相对危险度，或者说比数比是相对危险度的无偏估计。但是对照的选择必须满足下列条件，第一是时间配对，第二是按随机的原则，第三是对照是从时刻t时所有临危研究个体(危险集)中选择的，无论他已是病例还是已被选为对照的正常个体。
, http://www.100md.com
    在设计Ⅱ、Ⅲ、Ⅵ情形下的比数比估计，Lubin和Gail^[4]证明并给出了比数比和相对危险度的关系式

    OR=γ×ψ₁

    这时的比数比不等于相对危险度，比数比是相对危险度的有偏(biased)估计。式中相对危险度前面的系数在三种设计情形下的表达方式也各不相同，Lubin和Gail有详细的说明^[4]。所以通过求得相对危险度前面的系数γ就可以了解比数比OR作为相对危险度RR估计的偏性大小。其中，在设计Ⅱ和Ⅲ两种情形下，偏性表现得比较明显，并具有下列两个特点，一是发病例数较多的情形下偏性就越大，二是相对危险度越大(即危险或暴露因素的效应较大)时偏性越大。而在设计Ⅵ情形下，偏性表现得不明显。当研究的疾病是罕见疾病，即发病例数较少时，三种设计情形下的偏性均较小。表1和2是文献^[4]中的例子，对应的是设计Ⅱ和Ⅲ，因为这两种设计的偏性最大。表中列出的数字是所估计得偏性系数γ，其中时间变量选择的是年龄，从中可以看出随着随访时间的长短、发病例数的多少(可比较全肿瘤与呼吸系统肿瘤)、危险因子的作用强度大小(相对危险度的真值或理论值)的变化偏性系数的改变。偏性系数越大，由OR来估计RR的偏性越大。
, 百拇医药
    表1 设计Ⅱ时的偏性系数估计年龄(t)

    RR真值

    全肿瘤

    呼吸系统肿瘤

    2

    5

    10

    2

    5

    10

    20

    30

    1.11
, http://www.100md.com
    1.51

    2.53

    1.03

    1.13

    1.31

    1.77

    50

    1.09

    1.43

    2.25

    1.03

    1.11

    1.28
, 百拇医药
    1.67

    60

    1.06

    1.28

    1.73

    1.02

    1.08

    1.18

    1.41

    注：随访至70岁止表2 设计Ⅲ时的偏性系数估计年龄(t)

    RR真值

    全肿瘤

, 百拇医药     呼吸系统肿瘤

    2

    5

    10

    2

    5

    10

    20

    30

    1.09

    1.42

    2.15

    1.02

    1.11
, 百拇医药
    1.25

    1.59

    50

    1.08

    1.37

    2.02

    1.02

    1.10

    1.23

    1.55

    60

    1.06

    1.25
, 百拇医药
    1.65

    1.02

    1.07

    1.16

    1.36

    注：同表15 结语

    本文细讨论了队列研究中如何开展嵌入式病例对照研究设计，其中重点介绍了四种设计方案，同时就有关统计问题进行了讨论。以比数比作为相对危险度的估计来看，在常见的三种研究设计方案中，设计Ⅵ的偏性最小，可以忽略。如果研究疾病是发病率较低的疾病，并采用设计Ⅲ；或是当相对危险度较小(如接近于1)时，它们的偏性也可以忽略。此外，当研究队列的样本量较小时，在整个危险集中不采用替代者的方法选取对照，或采用替代者的方法从非疾病群体中选取对照，都会带来有偏的参数估计^[5]。从前文的讨论中可以看出，研究设计是一个很复杂的过程，因为在抽样时有很多种影响因素需要研究者加以选择或控制。所以，Robins、Lubin和Gail^[5]建议在具体的实际操作时可采用下列方案：时间配对、从非研究疾病的群体中随机抽样、随机时不用替代者方法；一旦一个个体被选为对照，在后面的随机抽样中不再考虑他将作为对照；如果前面被选为对照的个体在后面的随访中发生了研究的疾病，他可作为病例看待。国人在利用这些综合式研究设计时，应根据本身研究的具体情况，参照上述设计方案进行选择。
, 百拇医药
    作者简介：项永兵，男，硕士，副研究员。

    参考文献

    [1]项永兵.流行病学研究中的综合式研究设计〔J〕.医学研究通讯，1994，23：8

    [2]项永兵，袁剑敏，俞顺章，等.慢性病病因学研究中的新型研究设计〔J〕.中国慢性病预防与控制杂志，1996，4：174

    [3]Mantel N.Synthetic retrospective studies and related topics.Biometrics,1973,29:479

    [4]Lubin JH,Gail MH.Biased selection of controls for case-control analysis of cohort sutdies〔J〕.Biometrics,1984,40:63
, http://www.100md.com
    [5]Robins JM,Lubin JH,Gail MH.More on “biased selection of controls for case-control analysis of cohort studies”〔J〕.Biometrics,1986,42:273

    [6]Premtice RL,Breslow NE.Retrospective studies and failure time models〔J〕.Biometrika,1978,65:153

    [7]Langholz B,Thomas DC.Efficiency of cohort sampling designs:some surprising results〔J〕.Biometrics,1991,47:1563

    [8]Robins JM,Prentice RL,Blvins D.Designs for synthetic case-control studies in open cohorts〔J〕.Biometrics,1989,45:1103
, 百拇医药
    [9]Mantel N,Haenszel W.Statistical aspects of the analysis of data from retrospective studies of disease〔J〕.JNCI,1959,22:719

    [10]Breslow NE,Day NE.Statistical methods in cancer research on cancer,Vol.1,the analysis of case-control studies〔C〕.Lyon:International Agency for Research on Cancer.1980.

    [11]Gail MH,Lubin JH,Rubinstein LV.Likelihood calculations for matched casecontrol studies and survival studies with tied death times〔J〕.Biometrika,1981,68:703

    [12]Prentice RL.On the design of synthetic case-control studies〔J〕.Biometrics,1986,42:301

    (收稿日期：1998-10-28修回日期：1998-11-20), 百拇医药

百拇医药网 http://www.100md.com/html/analecta/1999/06/01/46/200.htm