百分位数的可信区间估计
作者:陈健美 陈峰
单位:陈健美 镇江医学院(212001); 陈峰 南通医学院
关键词:
中国卫生统计990328 百分位数(percentile)是用于描述计量资料尤其是偏态分布资料极为常用的指标体系。如用于允许区间的估计,变异度的描述,百分位数回归等。但百分位数本身亦存在抽样误差,有必要对其进行区间估计。本文介绍百分位数的bootstrap区间估计,并与二项分布近似法进行比较。
一、Bootstrap法
它是以原始数据为基础的模拟抽样统计推断法,其基本思想是:在原始数据的范围内作有放回的再抽样,样本含量仍为n,原始数据中每个观察单位每次被抽到的概率相等,为1/n,所得样本称为bootstrap样本。于是可得到参数θ的估计值θ(b),这样重复若干次,记为B。设B=1 000,就得到该参数的1 000个估计值。当θ(b)的频数分布近似正态分布时,以其均数作为点估计,用正态原理估计可信区间;当θ(b)的频数分布为偏态时,以其中位数作为点估计,以上、下2.5%分位数作为其95%可信限。
, 百拇医药
二、二项分布近似法:
根据二项分布原理按下列公式分别求可信区间上下限的百分位x%。
其中n为样本量,uα为标准正态分布的分位数,p为所求总体百分位数的百分位。然后按公式
分别求出相应百分位数的可信区间。
三、实例分析
取文献〔3〕中资料(表1),其中生存时间为正偏态分布,计算5%、50%、95%百分位数为P5=3.73,P50=10.11,P95=69.86。我们首先用bootstrap法来估计以上几个百分位数的可信区间。步骤为:在26个个体(编号为1,2,…,26)中作有放回的抽样,每个个体被抽到的概率为1/26,抽样次数仍为n=26,这可以用计算机产生1~26的均匀分布的随机数,相应的编号即为抽中的个体,由这些个体组成的样本就是一个bootstrap样本。如此重复B次(分别取B=200,500,1 000,1 500,2 000)可算得、、,b=1,…,B。从其频数分布可知是偏态分布,故以上、下2.5%分位数作为其95%可信限,结果见表2。在整个计算过程中,只是重复地抽样,重复地计算各样本百分位数,根据其频数分布的分位数即得到了可信区间,无需繁杂的数学推导。
, http://www.100md.com
表1 26例浆液性卵巢上皮癌患者的生存时间 1.00
2.50
4.50
7.50
9.50
11.50
12.50
14.50
15.00
15.00
17.50
18.50
, http://www.100md.com
24.00
24.00
25.20
32.70
36.00
36.00
43.00
44.00
46.00
69.00
70.00
83.40
83.50
, http://www.100md.com
156.00
表2 总体百分位数的可信区间
bootstrap法
二项分布法
B=200
B=500
B=1 000
B=1 500
B=2 000
P5
3.40~4.02
3.40~4.03
, http://www.100md.com
3.40~4.03
3.40~4.09
3.40~4.09
3.40~4.10
P50
7.57~12.48
7.60~13.99
7.64~14.16
7.64~14.83
7.64~14.83
7.64~5.00
, http://www.100md.com
P95
21.89~31.33
24.55~124.17
25.65~124.17
27.05~124.17
27.17~124.17
27.18~24.17
四、讨 论
1.bootstrap法估计的误差是多少?bootstrap统计量的抽样误差包含了两个部分,一是原样本(经验分布)的抽样误差SF;二是bootstrap再抽样误差S(1)B。当B充分大小时,bootstrap再抽样误差就趋于消失,bootstrap估计的误差就接近抽样误差。B要取多大?据Efron〔5〕提出,B的大小与原分布有关,一般取50~200之间即可,但若原数据的变异较大,则B的取值相应增加。从例1亦可看出,原始资料变量值小的一侧相对稳定,B=200与B=2 000时P5的可信区间很接近,而P95在B=200与B=2 000时则相差很大,提示我们对于变异较大的数据,特别是存有极大值或极小值,B宜取大一些,如本例B=1 000时,P95的可信区间才趋稳定。
, 百拇医药
2.在作医学参考值范围估计时,常用的方法有两大类:一是适用于正态分布或经变量变换能转换为正态分布的资料,最常用的是正态分布法;另一适用各种分布型资料,最常用的是百分位数法;对偏态分布用正态分布法会得怎样的结果?如本例若用正态分布法处理得X=34.70,均数的区间估计为27.94~41.46,与bootstrap、二项分布相差甚远。因此对偏态分布资料,我们常用百分位数法进行医学参考值的估计,常用的百分位数为P2.5,P5,P95,P97.5等,对百分位数的区间估计,目前应用较少,从本文应用结果来看,用bootstrap法对百分位数作区间估计,不失为一种可行、高效的估计方法。
参考文献
1.陈峰.Bootstrap估计及其应用.中国卫生统计,1997,14(5):5.
2.杨树勤主编.中国医学百科全书*医学统计学.上海:上海科学技术出版社,1985,86.
3.余松林等.临床随访资料的统计分析方法.北京:人民卫生出版社,1991,127.
4.Efron B & Tibshiirani RJ.An Introdution to the bootstrap.New York:Chapman & Hall,1993.
5.Efron B.Better bootstrap confindence interuals(with discutions).J.Amer.Statist.Assoc,1987,82:171~200., 百拇医药
单位:陈健美 镇江医学院(212001); 陈峰 南通医学院
关键词:
中国卫生统计990328 百分位数(percentile)是用于描述计量资料尤其是偏态分布资料极为常用的指标体系。如用于允许区间的估计,变异度的描述,百分位数回归等。但百分位数本身亦存在抽样误差,有必要对其进行区间估计。本文介绍百分位数的bootstrap区间估计,并与二项分布近似法进行比较。
一、Bootstrap法
它是以原始数据为基础的模拟抽样统计推断法,其基本思想是:在原始数据的范围内作有放回的再抽样,样本含量仍为n,原始数据中每个观察单位每次被抽到的概率相等,为1/n,所得样本称为bootstrap样本。于是可得到参数θ的估计值θ(b),这样重复若干次,记为B。设B=1 000,就得到该参数的1 000个估计值。当θ(b)的频数分布近似正态分布时,以其均数作为点估计,用正态原理估计可信区间;当θ(b)的频数分布为偏态时,以其中位数作为点估计,以上、下2.5%分位数作为其95%可信限。
, 百拇医药
二、二项分布近似法:
根据二项分布原理按下列公式分别求可信区间上下限的百分位x%。
其中n为样本量,uα为标准正态分布的分位数,p为所求总体百分位数的百分位。然后按公式
分别求出相应百分位数的可信区间。
三、实例分析
取文献〔3〕中资料(表1),其中生存时间为正偏态分布,计算5%、50%、95%百分位数为P5=3.73,P50=10.11,P95=69.86。我们首先用bootstrap法来估计以上几个百分位数的可信区间。步骤为:在26个个体(编号为1,2,…,26)中作有放回的抽样,每个个体被抽到的概率为1/26,抽样次数仍为n=26,这可以用计算机产生1~26的均匀分布的随机数,相应的编号即为抽中的个体,由这些个体组成的样本就是一个bootstrap样本。如此重复B次(分别取B=200,500,1 000,1 500,2 000)可算得、、,b=1,…,B。从其频数分布可知是偏态分布,故以上、下2.5%分位数作为其95%可信限,结果见表2。在整个计算过程中,只是重复地抽样,重复地计算各样本百分位数,根据其频数分布的分位数即得到了可信区间,无需繁杂的数学推导。
, http://www.100md.com
表1 26例浆液性卵巢上皮癌患者的生存时间 1.00
2.50
4.50
7.50
9.50
11.50
12.50
14.50
15.00
15.00
17.50
18.50
, http://www.100md.com
24.00
24.00
25.20
32.70
36.00
36.00
43.00
44.00
46.00
69.00
70.00
83.40
83.50
, http://www.100md.com
156.00
表2 总体百分位数的可信区间
bootstrap法
二项分布法
B=200
B=500
B=1 000
B=1 500
B=2 000
P5
3.40~4.02
3.40~4.03
, http://www.100md.com
3.40~4.03
3.40~4.09
3.40~4.09
3.40~4.10
P50
7.57~12.48
7.60~13.99
7.64~14.16
7.64~14.83
7.64~14.83
7.64~5.00
, http://www.100md.com
P95
21.89~31.33
24.55~124.17
25.65~124.17
27.05~124.17
27.17~124.17
27.18~24.17
四、讨 论
1.bootstrap法估计的误差是多少?bootstrap统计量的抽样误差包含了两个部分,一是原样本(经验分布)的抽样误差SF;二是bootstrap再抽样误差S(1)B。当B充分大小时,bootstrap再抽样误差就趋于消失,bootstrap估计的误差就接近抽样误差。B要取多大?据Efron〔5〕提出,B的大小与原分布有关,一般取50~200之间即可,但若原数据的变异较大,则B的取值相应增加。从例1亦可看出,原始资料变量值小的一侧相对稳定,B=200与B=2 000时P5的可信区间很接近,而P95在B=200与B=2 000时则相差很大,提示我们对于变异较大的数据,特别是存有极大值或极小值,B宜取大一些,如本例B=1 000时,P95的可信区间才趋稳定。
, 百拇医药
2.在作医学参考值范围估计时,常用的方法有两大类:一是适用于正态分布或经变量变换能转换为正态分布的资料,最常用的是正态分布法;另一适用各种分布型资料,最常用的是百分位数法;对偏态分布用正态分布法会得怎样的结果?如本例若用正态分布法处理得X=34.70,均数的区间估计为27.94~41.46,与bootstrap、二项分布相差甚远。因此对偏态分布资料,我们常用百分位数法进行医学参考值的估计,常用的百分位数为P2.5,P5,P95,P97.5等,对百分位数的区间估计,目前应用较少,从本文应用结果来看,用bootstrap法对百分位数作区间估计,不失为一种可行、高效的估计方法。
参考文献
1.陈峰.Bootstrap估计及其应用.中国卫生统计,1997,14(5):5.
2.杨树勤主编.中国医学百科全书*医学统计学.上海:上海科学技术出版社,1985,86.
3.余松林等.临床随访资料的统计分析方法.北京:人民卫生出版社,1991,127.
4.Efron B & Tibshiirani RJ.An Introdution to the bootstrap.New York:Chapman & Hall,1993.
5.Efron B.Better bootstrap confindence interuals(with discutions).J.Amer.Statist.Assoc,1987,82:171~200., 百拇医药