当前位置: 首页 > 期刊 > 《第二军医大学学报》 > 1999年第7期
编号:10499188
纵向观测二分类数据的广义线性模型分析
http://www.100md.com 《第二军医大学学报》 1999年第7期
     熊林平 曹秀堂 徐勇勇 陆健

    摘 要 目的:利用广义线性模型对纵向观测二分类数据进行分析,充分考虑纵向观测间的相关性,给出一般分析方法。方法:采用Zeger和提出的广义估计方程,拟合logistic广义线性模型,讨论3种协方差矩阵结构。结果:同时获得回归参数、相关参数的估计,完成了较为实用的运行程序,并进行了实例分析。结论:医学研究和临床试验中经常接触到纵向观测数据,对这类数据需采用特殊的方法进行分析处理,以解决重复观测间的相关性问题。

    关键词:纵向观测 二分类数据 广义线性模型

    医学研究和临床试验中经常碰到重复观测二分类数据。如:进行临床试验, 比较两种处理对呼吸道疾病的疗效。在两个研究中心将111名患者(甲中心56名,乙中心55名)随机分为两个处理组:积极治疗组(54名)和安慰剂治疗组(57名),治疗期间连续4次检查患者的呼吸道情况,结果为二分类变量,以0表示差,1表示好。可能的影响因素有研究中心、处理、性别、基准呼吸状况以及开始治疗时患者的年龄。数据如表1示,表中处理栏A为积极治疗,P为安慰治疗。 这种资料是按时间顺序对个体进行重复观测而得到的,其观测结果分为两类。对于这种纵向观测资料,若采用通常意义下的t 检验或方差分析
, 百拇医药
    表 1 甲中心56名患者及乙中心55名患者呼吸道状况观测结果

    Tab 1 The observations of breathing condition of 56 patients in center A and 55 patients in center B

    No.

    Tr.

    Sex

    Age

    Status(0=bad,1=good)

    No.

    Tr.

    Sex
, http://www.100md.com
    Age

    Status(0=bad,1=good)

    Baseline

    1

    2

    3

    4

    Baseline

    1

    2

    3

    4

    1
, http://www.100md.com
    P

    M

    46

    0

    0

    0

    0

    0

    57

    P

    F

    39

    0

    0
, 百拇医药
    0

    0

    0

    2

    P

    M

    28

    0

    0

    0

    0

    0

    58

    A
, 百拇医药
    M

    25

    0

    0

    1

    1

    1

    3

    A

    M

    23

    1

    1

    1
, http://www.100md.com
    1

    1

    59

    A

    M

    58

    1

    1

    1

    1

    1………………………………………………

    55

    P

, 百拇医药     M

    24

    1

    1

    1

    1

    1

    110

    A

    F

    63

    1

    1

    1
, 百拇医药
    1

    1

    56

    A

    M

    25

    0

    1

    1

    0

    1

    111

    A

    M
, 百拇医药
    31

    1

    1

    1

    1

    1

    等横向分析方法,将造成信息损失;更为重要的是,由于忽略了重复数据间可能存在的相关性,会导致参数估计不准确,甚至得出错误的结论。

    纵向研究由于充分考虑了数据间的相互依赖性,具有可提高功效以及对模型的选择有稳健性等优点,正日益受到统计学界的广泛关注。纵向数据的分析目前多采用拟合线性模型和广义线性模型的方法,研究的焦点集中在如何解决重复观测间的相关性问题上[1,2]。Zeger等在1986年提出的广义估计方程,较好地解决了似然函数中多余参数的估计问题[3],它将横向研究中的线性模型以及广义线性模型的参数估计推广到了纵向数据的分析。本文讨论纵向观测二分类数据的logistic广义线性模型分析,利用广义估计方程解决模型的回归参数和相关参数的估计问题。
, 百拇医药
    1 模型及参数估计

    一般地,设有m个个体,个体i的观测序列为yi=(yi1,…,yini)′,相应的观测时间为ti=(ti1,…,tini)′,对应于yij(j=1,…,ni)的协变量向量为xij=(xij1,…,xijp)′,以Yij表示对应于yij的随机变量,记μij=E(Yij),μi=(μi1,…,μini)′。为方便起见,下面的叙述中,去掉ni的下标i。

    Yij为二分类变量,观测结果为0或1,μij=Pr{Yij=1},Var(Yij)=μij(1-μij),二分类数据的logistic模型为:
, 百拇医药
    logit(μij)=x′ijβ (i=1,…,m;j=1,…,n) (1)

    即:

    log{μij/(1-μij)}=xij1β1+…+xijpβp (2)

    这里β=(β1,…,βp)′为p维回归参数向量。

    回归参数β的估计值g2409.gif (124 bytes)为下列广义估计方程的解[4]g2401.gif (898 bytes) (3)
, 百拇医药
    其中Di=g2402.gif (148 bytes)/g2403.gif (148 bytes)=(djk)n×p,Vi为近似协方差阵,定义为:

    Vi=A1/2iRi(α)A1/2i

    Ai=diag{μi1(1-μi1),…,μin(1-μin)}
, http://www.100md.com
    Ri(α)为近似相关阵,其结构完全由相关参数α确定。

    根据(2)式可得:

    μij=exp(x′ijβ)/{1+exp(x′ijβ)}

    则Di的元素djk为:g2404.gif (1223 bytes)

    j=1,…,n;k=1,…,p

    至于相关参数α的估计,根据样本相关系数g2405.gif (1473 bytes)
, http://www.100md.com
    记其均值E(Rijkijk),Rijk的方差为[5]

    wijk=Var(Rijk)=1+(1-2μij)(1-2μik).

    {μij(1-μijik(1-μik)}1/2δijk2ijk

    j
    将δijk看作Ri(α)的(j,k)元,它是α的函数,α满足如下方程:g2406.gif (951 bytes) (4)
, http://www.100md.com
    其中Ri=(Ri12,…,Ri1n,…,Rin-1,n)′为n(n-1)/2维向量,δi=E(Ri)=(δi12,…,δi1n,…,δin-1,n)′

    Ei=g2407.gif (252 bytes)

    Wi=diag{wi12,…,wi1n,…,win-1,n}

    于是可得到估计α,β的迭代公式为:

    βs+1s+(∑iD′iV-1iDi)-1iD′iV-1i(yii)
, 百拇医药
    αs+1s+(∑iE′iW-1iEi)-1iE′iW-1i(Rii)

    至此,只要知道相关阵Ri(α),就可迭代得到参数的估计。以下就Ri(α)的几种常用结构进行讨论。

    2 相关阵结构

    2.1 独立结构(IND) R(α)=I(单位阵),此时每个个体的各次重复观测间相互独立,可用一般的logistic回归模型进行分析[6,7]

    2.2 一阶依赖结构(DE-1) R(α)为三对角阵,次对角线元素为:
, 百拇医药
    δij,j+1=α(j=1,…,n-1)

    此时 Ei=δi/α=(ei12,…,ei1n,…,ein-1,n)′=(1,0,…,1)′

    即关于Ei的元素有:g2408.gif (838 bytes)

    2.3 可交换结构(EXC) δijk=α (ji=(1,…,1)′为n(n-1)/2维元素均为1的向量。Wi的对角元为:

    wijk=1+(1-2μij)(1-2μik)*
, 百拇医药
    {μij(1-μijik(1-μik)}α-α2 (j
    若已经获得估计g2409.gif (124 bytes),g2410.gif (103 bytes),则可据此得到g2409.gif (124 bytes)的协方差阵的稳健估计。我们已将上述方法编制成计算机运行程序,下面以表1的资料进行分析讨论。

    3 实例分析与讨论

    对表1资料进行分析。以yij表示第i个患者第j次观测时的呼吸道状况,i=1,…,111,j=1,…,4,μij表示yij的均值,协变量为:研究中心xi1、处理xi2、性别xi3、年龄xi4,以及基准呼吸状况xi5。令:g2411.gif (2477 bytes)
, http://www.100md.com
    利用logit连接函数

    h(x)=log{x/(1-x)} 针对两种相关阵结构:一阶依赖结构(DE-1),可交换结构(EXC),拟合logistic模型。

    logi t(μij)=β0+xi1β1+xi2β2+xi3β3+xi4β4+xi5β5

     i=1,…,111;j=1,…,4

    由估计结果(表2)可见,性别效应(β3)及年龄效应(β4)均无显著性意义。去掉这两个因素,拟合新的logistic模型。最后得到的模型含有参数β2(处理效应)和β5(基准效应),均有显著性意义,结果见表3。
, http://www.100md.com
    表 2 logistic模型Ⅰ拟合结果

    Tab 2 Fitted result of logistic model 1

    Parameter

    Correlated

    structure

    Estimate

    Standard

    error

    U

    β0

    DE-1
, http://www.100md.com
    -0.906 2

    0.456 6

    1.984 7

    EXC

    -0.856 1

    0.456 4

    1.875 9

    β1

    DE-1

    0.713 0

    0.351 9

    2.026 1
, 百拇医药
    EXC

    0.649 5

    0.353 2

    1.838 8

    β2

    DE-1

    1.206 7

    0.347 2

    3.475 9

    EXC

    1.265 4

    0.346 7
, http://www.100md.com
    3.649 9

    β3

    DE-1

    0.135 1

    0.445 4

    0.303 2

    EXC

    0.136 8

    0.440 2

    0.310 7

    β4

    DE-1
, http://www.100md.com
    -0.017 7

    0.012 9

    1.374 2

    EXC

    -0.018 8

    0.013 0

    1.446 7

    β5

    DE-1

    1.865 4

    0.345 6

    5.397 5
, http://www.100md.com
    EXC

    1.845 7

    0.346 0

    5.334 8

    α

    DE-1

    0.380

    EXC

    0.329

    由表3参数估计结果,可得结论如下:

    (1) 基准呼吸状况比较

    基准为差(xi5=0)g2412.gif (725 bytes)
, http://www.100md.com
    基准为好g2413.gif (812 bytes)g2409.gif (124 bytes)5≈2,于是基准呼吸状况好的患者的概率比值Pr(yij=1)/Pr(yij=0)为基准差的患者的exp(2)=7.39倍,即指标优势比OR=7.39。表 3 logistic模型拟合结果

    Tab 3 Fitted result of logistic model

    Parameter

    Correlated

    structure
, http://www.100md.com
    Estimate

    Standard

    error

    U

    β0

    DE-1

    -1.170 0

    0.301

    3.887 5

    EXC

    -1.182 7

    0.297 5
, 百拇医药
    3.976 1

    β2

    DE-1

    1.183 9

    0.329 9

    3.588 3

    EXC

    1.246 5

    0.328 7

    3.792 9

    β5

    DE-1
, 百拇医药
    2.019 2

    0.322 1

    6.268 2

    EXC

    1.989 8

    0.322

    6.179 7

    α

    DE-1

    0.390

    EXC

    0.352

    (2)处理组比较
, http://www.100md.com
    安慰剂组(xi2=0)g2414.gif (702 bytes)

    积极治疗组(xi2=1)g2415.gif (812 bytes)g2409.gif (124 bytes)2≈1.2,积极治疗组的Pr(yij=1)/Pr(yij=0)比值为安慰剂组的exp(1.2)=3.32倍,即指标优势比OR=3.32。

    参 考 文 献

    1 Hendricks SA, Wassell JT, Collins JW, et al. Power determination for geographically clustered data using generalized estima-ting equations. Statist Med, 1996, 15(9): 1951
, 百拇医药
    2 Follman D. Modelling transitional and joint marginal distributions in repeated categorical data. Statist Med, 1994, 13(5):467

    3 Zeger SL,Liang KY. Longitudinal data analysis for discrete and continuous outcomes. Biometrics, 1986, 42(1):121

    4 McCullagh P , Nelder JA. Generalized linear models. 2nd ed. London: Chapman and Hall, 1989.419~430

    5 Prentice RL. Correlated binary regression with covariates specific to each binary observation.Biometrics, 1988,44(4):1033

    6 方积乾,徐勇勇,余松林,等. 医学统计学与电脑实验.上海:上海科学技术出版社,1997.322~331

    7 胡良平. 现代统计学与SAS应用.北京:军事医学科学出版社,1996.199~214, 百拇医药