捕获-再捕获资料的对数线性模型及其在估计婴儿死亡人数中的应用
作者:高桂明 方积乾 夏海晖 阮海燕 王国平 杨淑敏 陈少敏
单位:高桂明(中山医科大学卫生统计教研室 广州510089);方积乾(中山医科大学卫生统计教研室 广州510089);夏海晖(广州市卫生局);阮海燕(番禺市妇幼保健院);王国平(番禺市妇幼保健院);杨淑敏(番禺市妇幼保健院);陈少敏(番禺市妇幼保健院)
关键词:捕获-再捕获;对数线性模型;婴儿死亡数
数理医药学杂志000301
摘 要 介绍了捕获-再捕获方法的对数线性模型,并应用于估计广州番禺市1999年的婴儿死亡人数。
中图分类号:R 195.1 文献标识码:A
文章编号:1004-4337(2000)03-0193-02
, http://www.100md.com
捕获-再捕获方法是根据两个或两个以上样本估计生物种群大小的一种方法,最早应用于估计限定区域中野生动物(如鸟类、鱼群等)的种群大小。自六十年代Wittes和Sidel将捕获-再捕获方法应用于流行病学研究以来,捕获-再捕获方法在医学上得到了广泛的应用[1]。本文利用捕获-再捕获方法的对数线性模型对广州番禺市1999年来自不同途径的三套资料进行分析,以估计准确的婴儿死亡人数。
1 理论和方法介绍[2,3]
为了估计封闭群体中个体的总数N,对其进行K次调查(捕获),得到K个样本。当调查的样本数K≥3时,常常使用捕获-再捕获方法的对数线性模型。为了描述的简便,我们以K=3的情形说明捕获-再捕获方法的对数线性模型的理论和应用。K>3时有类似的结果。
假设每次调查(捕获)中,所有的个体都以同等的概率被捕获。三样本调查的数据见表1,其中有一个缺失数据的格子。
, 百拇医药
表1 三样本调查数据
第三个样本
有
没有
第二个样本
第二个样本
有
没有
有
没有
第一个样本
有
没有
, 百拇医药
x111
x211
x121
x221
x112
x212
x122
每个个体在三次调查中被观察的历史可用3个足标(ijk)表示,足标1、2分别表示个体在对应的样本出现和不出现。足标“+”表示包括个体在对应的样本出现和不出现两种情况。xijk表示具有被观察历史(ijk)的个体数,例如x121表示在第一、三样本中出现,在第二个样本中不出现的个体数,例如x1+2=x112+x122。
, 百拇医药
1.1 模型
设n表示观察到的个体的总数,上述表中第(i,j,k)格个体的期望频数是mijk,pijk表示对应于(i,j,k)格的概率,p222表示在三个样本中都不出现的概率。可用的对数线性模型以及它们的说明如下:
① 三样本相互独立 logmijk=u+u1(i)+u2(j)+u3(k) (1)
② 第三样本与前二个独立
logmijk=u+u1(i)+u2(j)+u3(k)+u12(ij) (2)
, http://www.100md.com
(这种模型有三个不同的形式)
③ 两对样本不独立
logmijk=u+u1(i)+u2(j)+u3(k)+u12(ij)+u23(jk) (3)
(这种模型也有三个不同的形式)
④ 各对样本都不独立
logmijk=u+u1(i)+u2(j)+u3(k)+u12(ij)+u23(jk)+u13(ik) (4)
, 百拇医药
1.2 参数估计
对上述各种情形N有极大似然估计
当三样本相互独立时,对模型(1),N的估计值可由解二次方程得到。因为和分别是个体在第一、二、三个样本中出现的概率估计,由独立性可求和,例如1)的渐近方差估计:
, 百拇医药
模型(2)、(3)、(4)的参数估计见表2。
表2 模型(2)、(3)、(4)的参数估计 模型
, 百拇医药
(2)*
x221
(3)
, 百拇医药
x121
x221
x122
(4)
x111
x121
x211
, 百拇医药
x221
x112
x122
x212
注:* 其中x’++1=x++1-x221
1.3 模型的检验与选择
有了,就可以用
, 百拇医药
来评价对观察值拟合的模型是否合适。(1)、(2)、(3)和(4)模型分别对应的自由度是3、2、1、0。模型(4)必须与数据完全符合。用比(4)少一些参数的模型,是希望得到N更有效的估计。
2 实例分析结果
为了获得准确的婴儿死亡人数,广州番禺市妇幼保健院每年都要进行漏报调查,分别从医院、计生办、村(街道)妇女主任和全人口死因监测员四种途径收集资料。我们挑选随机性较好的医院、全人口死因监测和计生办的资料,分别当作第一、二、三个样本。1999年番禺市(除去钟村、莲花山和新造等三地)婴儿死亡数据见表3。
表3 1999年番禺市婴儿死亡数据 x111
x121
x211
, http://www.100md.com
x221
x112
x122
x212
17
24
12
10
7
10
0
从数据的收集过程可知,医院与计生办,全人口监测员与计生办的资料可能不独立,我们选择一、三和二、三年对样本不独立的模型: logmijk=u+u1(i)+u2(j)+u3(k)+u13(ik)+u23(jk) (5)
, http://www.100md.com
对上述数据进行拟合,计算得χ2=20.7,对应的单侧概率P<0.001,显然拟合效果不好。为了提高拟合优度,将模型(5)中的u23(jk)去掉,只考虑医院与计生办资料的不独立性,用一、三样本不独立的模型进行拟合,计算得χ2=1.1,对应的单侧概率P在0.5与0.95之间,这样模型的拟合效果相当好,其对应的参数估计为的置信区间为(77.8,84.5)。
为了比较,我们也用三样本相互独立的模型对数据进行拟合,计算得χ2=5.1,对应的单侧概率P在0.1与0.1之间,的置信区间为(79,88)。这个模型的拟合效果显然不如上一个模型理想。
综上所述,我们最终选用一、三样本不独立的模型N的估计值为81.2,取整为81,95%的置信区间为(77.8,84.5)。
, http://www.100md.com
3 讨论
因为广州番禺市妇幼保健院统计的1999年番禺市(除去钟村、莲花山和新造等三地)婴儿死亡数为80,与我们的估计值81相差不大,可认为番禺市的婴儿死亡漏报调查工作已相当细致。但由于一部分死亡弃婴难以记入上述三种样本,这将是以后工作值得考虑的方面。
参考文献
1,International Working Group for Disease Monitoring and Forecasting. Capture-recapture and multi-record system estimation I: history and theoretical development. Am J Epidemiol, 1995,142:1047~1058.
2,Cormack RM. Log-linear models for capture-recapture. Biometrics 1989,45:395~419.
3,Bishop Y.M.M, Fienberg, J.E., and Holland P.W. discrete multivariate analysis: theory and practice Cambridge, Massachusetts: The Massachusetts institute of Technology Press, 1975.
收稿日期:1999-11-11, 百拇医药
单位:高桂明(中山医科大学卫生统计教研室 广州510089);方积乾(中山医科大学卫生统计教研室 广州510089);夏海晖(广州市卫生局);阮海燕(番禺市妇幼保健院);王国平(番禺市妇幼保健院);杨淑敏(番禺市妇幼保健院);陈少敏(番禺市妇幼保健院)
关键词:捕获-再捕获;对数线性模型;婴儿死亡数
数理医药学杂志000301
摘 要 介绍了捕获-再捕获方法的对数线性模型,并应用于估计广州番禺市1999年的婴儿死亡人数。
中图分类号:R 195.1 文献标识码:A
文章编号:1004-4337(2000)03-0193-02
, http://www.100md.com
捕获-再捕获方法是根据两个或两个以上样本估计生物种群大小的一种方法,最早应用于估计限定区域中野生动物(如鸟类、鱼群等)的种群大小。自六十年代Wittes和Sidel将捕获-再捕获方法应用于流行病学研究以来,捕获-再捕获方法在医学上得到了广泛的应用[1]。本文利用捕获-再捕获方法的对数线性模型对广州番禺市1999年来自不同途径的三套资料进行分析,以估计准确的婴儿死亡人数。
1 理论和方法介绍[2,3]
为了估计封闭群体中个体的总数N,对其进行K次调查(捕获),得到K个样本。当调查的样本数K≥3时,常常使用捕获-再捕获方法的对数线性模型。为了描述的简便,我们以K=3的情形说明捕获-再捕获方法的对数线性模型的理论和应用。K>3时有类似的结果。
假设每次调查(捕获)中,所有的个体都以同等的概率被捕获。三样本调查的数据见表1,其中有一个缺失数据的格子。
, 百拇医药
表1 三样本调查数据
第三个样本
有
没有
第二个样本
第二个样本
有
没有
有
没有
第一个样本
有
没有
, 百拇医药
x111
x211
x121
x221
x112
x212
x122
每个个体在三次调查中被观察的历史可用3个足标(ijk)表示,足标1、2分别表示个体在对应的样本出现和不出现。足标“+”表示包括个体在对应的样本出现和不出现两种情况。xijk表示具有被观察历史(ijk)的个体数,例如x121表示在第一、三样本中出现,在第二个样本中不出现的个体数,例如x1+2=x112+x122。
, 百拇医药
1.1 模型
设n表示观察到的个体的总数,上述表中第(i,j,k)格个体的期望频数是mijk,pijk表示对应于(i,j,k)格的概率,p222表示在三个样本中都不出现的概率。可用的对数线性模型以及它们的说明如下:
① 三样本相互独立 logmijk=u+u1(i)+u2(j)+u3(k) (1)
② 第三样本与前二个独立
logmijk=u+u1(i)+u2(j)+u3(k)+u12(ij) (2)
, http://www.100md.com
(这种模型有三个不同的形式)
③ 两对样本不独立
logmijk=u+u1(i)+u2(j)+u3(k)+u12(ij)+u23(jk) (3)
(这种模型也有三个不同的形式)
④ 各对样本都不独立
logmijk=u+u1(i)+u2(j)+u3(k)+u12(ij)+u23(jk)+u13(ik) (4)
, 百拇医药
1.2 参数估计
对上述各种情形N有极大似然估计
当三样本相互独立时,对模型(1),N的估计值可由解二次方程得到。因为和分别是个体在第一、二、三个样本中出现的概率估计,由独立性可求和,例如1)的渐近方差估计:
, 百拇医药
模型(2)、(3)、(4)的参数估计见表2。
表2 模型(2)、(3)、(4)的参数估计 模型
, 百拇医药
(2)*
x221
(3)
, 百拇医药
x121
x221
x122
(4)
x111
x121
x211
, 百拇医药
x221
x112
x122
x212
注:* 其中x’++1=x++1-x221
1.3 模型的检验与选择
有了,就可以用
, 百拇医药
来评价对观察值拟合的模型是否合适。(1)、(2)、(3)和(4)模型分别对应的自由度是3、2、1、0。模型(4)必须与数据完全符合。用比(4)少一些参数的模型,是希望得到N更有效的估计。
2 实例分析结果
为了获得准确的婴儿死亡人数,广州番禺市妇幼保健院每年都要进行漏报调查,分别从医院、计生办、村(街道)妇女主任和全人口死因监测员四种途径收集资料。我们挑选随机性较好的医院、全人口死因监测和计生办的资料,分别当作第一、二、三个样本。1999年番禺市(除去钟村、莲花山和新造等三地)婴儿死亡数据见表3。
表3 1999年番禺市婴儿死亡数据 x111
x121
x211
, http://www.100md.com
x221
x112
x122
x212
17
24
12
10
7
10
0
从数据的收集过程可知,医院与计生办,全人口监测员与计生办的资料可能不独立,我们选择一、三和二、三年对样本不独立的模型: logmijk=u+u1(i)+u2(j)+u3(k)+u13(ik)+u23(jk) (5)
, http://www.100md.com
对上述数据进行拟合,计算得χ2=20.7,对应的单侧概率P<0.001,显然拟合效果不好。为了提高拟合优度,将模型(5)中的u23(jk)去掉,只考虑医院与计生办资料的不独立性,用一、三样本不独立的模型进行拟合,计算得χ2=1.1,对应的单侧概率P在0.5与0.95之间,这样模型的拟合效果相当好,其对应的参数估计为的置信区间为(77.8,84.5)。
为了比较,我们也用三样本相互独立的模型对数据进行拟合,计算得χ2=5.1,对应的单侧概率P在0.1与0.1之间,的置信区间为(79,88)。这个模型的拟合效果显然不如上一个模型理想。
综上所述,我们最终选用一、三样本不独立的模型N的估计值为81.2,取整为81,95%的置信区间为(77.8,84.5)。
, http://www.100md.com
3 讨论
因为广州番禺市妇幼保健院统计的1999年番禺市(除去钟村、莲花山和新造等三地)婴儿死亡数为80,与我们的估计值81相差不大,可认为番禺市的婴儿死亡漏报调查工作已相当细致。但由于一部分死亡弃婴难以记入上述三种样本,这将是以后工作值得考虑的方面。
参考文献
1,International Working Group for Disease Monitoring and Forecasting. Capture-recapture and multi-record system estimation I: history and theoretical development. Am J Epidemiol, 1995,142:1047~1058.
2,Cormack RM. Log-linear models for capture-recapture. Biometrics 1989,45:395~419.
3,Bishop Y.M.M, Fienberg, J.E., and Holland P.W. discrete multivariate analysis: theory and practice Cambridge, Massachusetts: The Massachusetts institute of Technology Press, 1975.
收稿日期:1999-11-11, 百拇医药