当前位置: 首页 > 期刊 > 《中国卫生统计》 > 1999年第3期
编号:10284590
百分位数的可信区间估计
http://www.100md.com 《中国卫生统计》 1999年第3期
     作者:陈健美 陈峰

    单位:陈健美 镇江医学院(212001); 陈峰 南通医学院

    关键词:

    中国卫生统计990328 百分位数(percentile)是用于描述计量资料尤其是偏态分布资料极为常用的指标体系。如用于允许区间的估计,变异度的描述,百分位数回归等。但百分位数本身亦存在抽样误差,有必要对其进行区间估计。本文介绍百分位数的bootstrap区间估计,并与二项分布近似法进行比较。

    一、Bootstrap法

    它是以原始数据为基础的模拟抽样统计推断法,其基本思想是:在原始数据的范围内作有放回的再抽样,样本含量仍为n,原始数据中每个观察单位每次被抽到的概率相等,为1/n,所得样本称为bootstrap样本。于是可得到参数θ的估计值θ(b),这样重复若干次,记为B。设B=1 000,就得到该参数的1 000个估计值。当θ(b)的频数分布近似正态分布时,以其均数作为点估计,用正态原理估计可信区间;当θ(b)的频数分布为偏态时,以其中位数作为点估计,以上、下2.5%分位数作为其95%可信限。
, 百拇医药
    二、二项分布近似法:

    根据二项分布原理按下列公式分别求可信区间上下限的百分位x%。

    其中n为样本量,uα为标准正态分布的分位数,p为所求总体百分位数的百分位。然后按公式

    分别求出相应百分位数的可信区间。

    三、实例分析

    取文献〔3〕中资料(表1),其中生存时间为正偏态分布,计算5%、50%、95%百分位数为P5=3.73,P50=10.11,P95=69.86。我们首先用bootstrap法来估计以上几个百分位数的可信区间。步骤为:在26个个体(编号为1,2,…,26)中作有放回的抽样,每个个体被抽到的概率为1/26,抽样次数仍为n=26,这可以用计算机产生1~26的均匀分布的随机数,相应的编号即为抽中的个体,由这些个体组成的样本就是一个bootstrap样本。如此重复B次(分别取B=200,500,1 000,1 500,2 000)可算得,b=1,…,B。从其频数分布可知是偏态分布,故以上、下2.5%分位数作为其95%可信限,结果见表2。在整个计算过程中,只是重复地抽样,重复地计算各样本百分位数,根据其频数分布的分位数即得到了可信区间,无需繁杂的数学推导。
, http://www.100md.com
    表1 26例浆液性卵巢上皮癌患者的生存时间 1.00

    2.50

    4.50

    7.50

    9.50

    11.50

    12.50

    14.50

    15.00

    15.00

    17.50

    18.50
, http://www.100md.com
    24.00

    24.00

    25.20

    32.70

    36.00

    36.00

    43.00

    44.00

    46.00

    69.00

    70.00

    83.40

    83.50
, http://www.100md.com
    156.00

    表2 总体百分位数的可信区间

    bootstrap法

    二项分布法

    B=200

    B=500

    B=1 000

    B=1 500

    B=2 000

    P5

    3.40~4.02

    3.40~4.03
, http://www.100md.com
    3.40~4.03

    3.40~4.09

    3.40~4.09

    3.40~4.10

    P50

    7.57~12.48

    7.60~13.99

    7.64~14.16

    7.64~14.83

    7.64~14.83

    7.64~5.00
, http://www.100md.com
    P95

    21.89~31.33

    24.55~124.17

    25.65~124.17

    27.05~124.17

    27.17~124.17

    27.18~24.17

    四、讨 论

    1.bootstrap法估计的误差是多少?bootstrap统计量的抽样误差包含了两个部分,一是原样本(经验分布)的抽样误差SF;二是bootstrap再抽样误差S(1)B。当B充分大小时,bootstrap再抽样误差就趋于消失,bootstrap估计的误差就接近抽样误差。B要取多大?据Efron〔5〕提出,B的大小与原分布有关,一般取50~200之间即可,但若原数据的变异较大,则B的取值相应增加。从例1亦可看出,原始资料变量值小的一侧相对稳定,B=200与B=2 000时P5的可信区间很接近,而P95在B=200与B=2 000时则相差很大,提示我们对于变异较大的数据,特别是存有极大值或极小值,B宜取大一些,如本例B=1 000时,P95的可信区间才趋稳定。
, 百拇医药
    2.在作医学参考值范围估计时,常用的方法有两大类:一是适用于正态分布或经变量变换能转换为正态分布的资料,最常用的是正态分布法;另一适用各种分布型资料,最常用的是百分位数法;对偏态分布用正态分布法会得怎样的结果?如本例若用正态分布法处理得X=34.70,均数的区间估计为27.94~41.46,与bootstrap、二项分布相差甚远。因此对偏态分布资料,我们常用百分位数法进行医学参考值的估计,常用的百分位数为P2.5,P5,P95,P97.5等,对百分位数的区间估计,目前应用较少,从本文应用结果来看,用bootstrap法对百分位数作区间估计,不失为一种可行、高效的估计方法。

    参考文献

    1.陈峰.Bootstrap估计及其应用.中国卫生统计,1997,14(5):5.

    2.杨树勤主编.中国医学百科全书*医学统计学.上海:上海科学技术出版社,1985,86.

    3.余松林等.临床随访资料的统计分析方法.北京:人民卫生出版社,1991,127.

    4.Efron B & Tibshiirani RJ.An Introdution to the bootstrap.New York:Chapman & Hall,1993.

    5.Efron B.Better bootstrap confindence interuals(with discutions).J.Amer.Statist.Assoc,1987,82:171~200., 百拇医药