三阶段抽样样本大小的研究及应用
高 歌 汤旦林
提 要 目的:为调查设计中常用的三阶段随机抽样方法寻求其样本大小估计公式。方法:利用高等数学中的哥西不等式原理及求极小值方法。结果:当采用三阶段随机抽样作参数估计时,在限定抽样误差使调查花费最小及限定调查花费使抽样误差最小两种情况下,推导出其最优样本大小的计算公式。结论:本文首次推导出三阶段随机抽样样本大小的估计公式,在中国铁路职工医疗费用的抽样调查中取得了成功的应用效果。
关键词:调查设计 三阶段抽样 样本大小
抽样调查是医学科研及卫生工作中常用的主要调查研究方法。抽样调查必须有一个科学的抽样设计,确定样本大小是抽样设计的关键之一。统计学家提出了不少的抽样方法,但对多数复杂的抽样方法并没有提供相应的样本大小估计公式。本文对重要的尤其适用于大规模调查的三阶段抽样调查方法,在限定调查花费的大小使其抽样误差达到最小及限定抽样误差使其调查花费达到最小的两种情况下,从数学上推导出其参数估计时的最优样本大小计算公式。
, http://www.100md.com
计算公式及推导过程
一、三阶段抽样的概念
假定:被抽总体的个体数为N,由N1个群组成;第i个群由Ni2个小群组成,平均每一群包含N2个小群;第i个群内第j小群由Nij3个个体组成,平均每一小群包含N3个个体。为估计总体均数,假定:第一阶段随机抽取n1个群;第二阶段从第i个抽中的群内随机抽取ni2个小群,平均从每一个抽中群内抽取n2个小群;第三阶段从第i个抽中群内第j个抽中小群随机抽取nij3个个体,平均从每个抽中的小群抽取了n3个个体。用yjik记第i个群内第j个小群中第k个个体的指标值,μij、Xij分别记第i个抽中群内第j个抽中小群的总体均数、样本均数,μi、Xi分别记第i个抽中群的总体均数、样本均数,μ、X分别记整个被抽总体的总体均数、样本均数,V(X)记X的方差。
, 百拇医药
根据Cochran W.G.给出的结果:
(1)
其中
其样本估计量为:
(2)
, 百拇医药
其样本估计量为:
(3)
其样本估计量为:
(4)
二、估计总体均数时的最优样本大小
用C表示调查所需的总花费,C0表示整个调查的基本花费,C1表示每调查一个群的平均基本花费,C2表示每调查一个小群的平均基本花费,C3表示每调查一个个体的平均直接花费,则得花费函数:
, 百拇医药
(5)
将公式(1)变形为:
(6)
则(6)式变为:
(5)式变为:
, http://www.100md.com
对于限定V(X)(代表了抽样误差的大小)的值使调查花费达到最小或者对于限定调查花费C的值使V(X)达到最小,等价于使乘积达到最小。由哥西不等式原理,当且仅当对所有的l,为同一常数时达到其最小值。
令:
, http://www.100md.com
则
得
解得(限定抽样误差使调查花费达到最小或限定调查花费使抽样误差达到最小两种情况下):
(7)
(8)
, 百拇医药
将V(X)=V代入(6)式,得(限定抽样误差的大小使调查花费最小):
(9)
在(5)式中,当C为一限定值时,得(限定调查花费使抽样误差最小):
(10)
三、估计总体率时的最优样本大小
当估计总体率时,在限定抽样误差使调查花费最小及限定调查花费使抽样误差最小的最优样本大小估计公式及推导过程,与估计总体均数时完全相同。用p记整个被抽总体的样本率,pi记第i个抽中群的样本率,pij记第i个抽中群内第j个抽中小群的样本率。此时,
, http://www.100md.com
应用实例
为了制定中国铁路系统职工医疗保险实施方案,需调查估计中国铁路职工1998年的人均医疗费用。全国共有14个(N1=14)铁路局,平均每个铁路局有下属单位293个(N2=293),平均每个单位有职工397人(N3=397)。采用三阶段抽样:第一阶段随机抽取n1个铁路局(群),调查每一个铁路局的平均基本花费C1为5 500元;第二阶段从每个抽中的铁路局平均随机抽取n2个单位(小群),调查每一个单位的基本花费平均值C2为500元;第三阶段从每个抽中的单位平均随机抽取n3名职工,调查每一名职工的直接花费的平均值C3为5元。将总体均数的可信区间长度之一半定为10元(容许误差δ=10),α=0.05,即限定V(X)值为V=(10/1.96)226时,为使调查总花费最省,按如下步骤计算最优样本大小:
, http://www.100md.com
1.按公式(2)~(4),利用过去的医疗费用资料,估计得(过程从略):
2.按公式(7)~(9)计算得(用代替):
从计算可知,应从全国14个铁路局中随机抽取4个铁路局,从每个抽中的铁路局平均抽取8个单位,从每个抽中的单位平均抽取93名职工。
, 百拇医药
3.第i个抽中的铁路局内抽取的单位个数可由公式ni2=Ni2.n2/N2来估计。例如某抽中铁路局有301个单位,应在该铁路局抽取的单位数为301×8÷2938。
4.第i个抽中铁路局内第j个抽中单位应抽取的职工人数可按公式nij3=Nij3.n3/N3来估计。例如某抽中单位有职工426人,应在该单位抽取的职工人数为426×93÷397100人。
, 百拇医药 讨 论
1.本文首次从数学上推导出三阶段随机抽样样本大小的估计公式,方法科学、公式简便。并采用三阶段随机抽样,使用本文给出的公式,计算出各阶段的最优样本大小,对全国铁路职工1998年的人均医疗费用作出了科学的估计,为制定《中国铁路职工医疗保险实施方案》提供了重要的科学依据。
2.在三阶段抽样中,调查一个群的基本花费要远远高于调查一个小群的基本花费,调查一个小群的基本花费要远远高于调查一个个体的直接花费。一般来讲:当少抽一些群而在各抽中群内较多地抽取一些小群,在各抽中小群内较多地抽取一些个体,会使抽样误差增大而调查花费减少;当多抽一些群而在各抽中群内少抽一些小群,在各抽中小群少抽一些个体,会使抽样误差减少而调查花费增大。本文正是为了解决这一矛盾,在限定抽样误差的大小使调查花费达到最小及限定调查花费的大小使抽样误差达到最小的两种情况下,求出了最优样本大小计算公式。
3.采用本文所给样本大小估计公式作三阶段抽样对总体均数,总体率作区间估计时,要求X、p呈正态分布。当变量不呈正态分布时,只要样本足够大,X、p也近似正态分布。
, 百拇医药
4.常用的多阶段抽样方法有二阶段随机抽样、分层二阶段随机抽样、三阶段随机抽样、分层三阶段随机抽样等。作者曾对二阶段随机抽样、分层二阶段随机抽样给出其样本大小估计公式。因篇幅有限,本文对分层三阶段随机抽样的样本大小估计公式未作介绍。
*铁道部科技基金资助项目[编号B97(43)]
作者单位:高 歌 上海铁道大学医学院预防医学教研室(200070)
汤旦林 北京中日友好医院生物统计研究室
参考文献
1.Cochran W.G. Sampling thechniques. 3 rd ed.New York: John Wiley & Sons,Inc., 1977,30.
2.菲赫金哥尔茨著,叶彦谦等译.微积分学教程.一卷二分册.北京:人民教育出版社,1980,475.
, http://www.100md.com
3.高歌,汤旦林.二阶段抽样样本大小的估计方法.中国卫生统计,1984,1(1):8.
4.高歌,王松桂.分层二阶段抽样样本大小的估计方法.中国卫生统计,1998,15(6): 51.
5.高歌,主编.实用卫生管理统计.第1版.合肥:中国科学技术大学出版社,1991,213.
6.Elbers AR.Estimating sample sizes for a two-stage sampling survey of seroprevalence of pseudorabies virus(PRV)-infected swine.Vet-Q.1995,17(3):92., http://www.100md.com
提 要 目的:为调查设计中常用的三阶段随机抽样方法寻求其样本大小估计公式。方法:利用高等数学中的哥西不等式原理及求极小值方法。结果:当采用三阶段随机抽样作参数估计时,在限定抽样误差使调查花费最小及限定调查花费使抽样误差最小两种情况下,推导出其最优样本大小的计算公式。结论:本文首次推导出三阶段随机抽样样本大小的估计公式,在中国铁路职工医疗费用的抽样调查中取得了成功的应用效果。
关键词:调查设计 三阶段抽样 样本大小
抽样调查是医学科研及卫生工作中常用的主要调查研究方法。抽样调查必须有一个科学的抽样设计,确定样本大小是抽样设计的关键之一。统计学家提出了不少的抽样方法,但对多数复杂的抽样方法并没有提供相应的样本大小估计公式。本文对重要的尤其适用于大规模调查的三阶段抽样调查方法,在限定调查花费的大小使其抽样误差达到最小及限定抽样误差使其调查花费达到最小的两种情况下,从数学上推导出其参数估计时的最优样本大小计算公式。
, http://www.100md.com
计算公式及推导过程
一、三阶段抽样的概念
假定:被抽总体的个体数为N,由N1个群组成;第i个群由Ni2个小群组成,平均每一群包含N2个小群;第i个群内第j小群由Nij3个个体组成,平均每一小群包含N3个个体。为估计总体均数,假定:第一阶段随机抽取n1个群;第二阶段从第i个抽中的群内随机抽取ni2个小群,平均从每一个抽中群内抽取n2个小群;第三阶段从第i个抽中群内第j个抽中小群随机抽取nij3个个体,平均从每个抽中的小群抽取了n3个个体。用yjik记第i个群内第j个小群中第k个个体的指标值,μij、Xij分别记第i个抽中群内第j个抽中小群的总体均数、样本均数,μi、Xi分别记第i个抽中群的总体均数、样本均数,μ、X分别记整个被抽总体的总体均数、样本均数,V(X)记X的方差。
, 百拇医药
根据Cochran W.G.给出的结果:
(1)
其中
其样本估计量为:
(2)
, 百拇医药
其样本估计量为:
(3)
其样本估计量为:
(4)
二、估计总体均数时的最优样本大小
用C表示调查所需的总花费,C0表示整个调查的基本花费,C1表示每调查一个群的平均基本花费,C2表示每调查一个小群的平均基本花费,C3表示每调查一个个体的平均直接花费,则得花费函数:
, 百拇医药
(5)
将公式(1)变形为:
(6)
则(6)式变为:
(5)式变为:
, http://www.100md.com
对于限定V(X)(代表了抽样误差的大小)的值使调查花费达到最小或者对于限定调查花费C的值使V(X)达到最小,等价于使乘积达到最小。由哥西不等式原理,当且仅当对所有的l,为同一常数时达到其最小值。
令:
, http://www.100md.com
则
得
解得(限定抽样误差使调查花费达到最小或限定调查花费使抽样误差达到最小两种情况下):
(7)
(8)
, 百拇医药
将V(X)=V代入(6)式,得(限定抽样误差的大小使调查花费最小):
(9)
在(5)式中,当C为一限定值时,得(限定调查花费使抽样误差最小):
(10)
三、估计总体率时的最优样本大小
当估计总体率时,在限定抽样误差使调查花费最小及限定调查花费使抽样误差最小的最优样本大小估计公式及推导过程,与估计总体均数时完全相同。用p记整个被抽总体的样本率,pi记第i个抽中群的样本率,pij记第i个抽中群内第j个抽中小群的样本率。此时,
, http://www.100md.com
应用实例
为了制定中国铁路系统职工医疗保险实施方案,需调查估计中国铁路职工1998年的人均医疗费用。全国共有14个(N1=14)铁路局,平均每个铁路局有下属单位293个(N2=293),平均每个单位有职工397人(N3=397)。采用三阶段抽样:第一阶段随机抽取n1个铁路局(群),调查每一个铁路局的平均基本花费C1为5 500元;第二阶段从每个抽中的铁路局平均随机抽取n2个单位(小群),调查每一个单位的基本花费平均值C2为500元;第三阶段从每个抽中的单位平均随机抽取n3名职工,调查每一名职工的直接花费的平均值C3为5元。将总体均数的可信区间长度之一半定为10元(容许误差δ=10),α=0.05,即限定V(X)值为V=(10/1.96)226时,为使调查总花费最省,按如下步骤计算最优样本大小:
, http://www.100md.com
1.按公式(2)~(4),利用过去的医疗费用资料,估计得(过程从略):
2.按公式(7)~(9)计算得(用代替):
从计算可知,应从全国14个铁路局中随机抽取4个铁路局,从每个抽中的铁路局平均抽取8个单位,从每个抽中的单位平均抽取93名职工。
, 百拇医药
3.第i个抽中的铁路局内抽取的单位个数可由公式ni2=Ni2.n2/N2来估计。例如某抽中铁路局有301个单位,应在该铁路局抽取的单位数为301×8÷2938。
4.第i个抽中铁路局内第j个抽中单位应抽取的职工人数可按公式nij3=Nij3.n3/N3来估计。例如某抽中单位有职工426人,应在该单位抽取的职工人数为426×93÷397100人。
, 百拇医药 讨 论
1.本文首次从数学上推导出三阶段随机抽样样本大小的估计公式,方法科学、公式简便。并采用三阶段随机抽样,使用本文给出的公式,计算出各阶段的最优样本大小,对全国铁路职工1998年的人均医疗费用作出了科学的估计,为制定《中国铁路职工医疗保险实施方案》提供了重要的科学依据。
2.在三阶段抽样中,调查一个群的基本花费要远远高于调查一个小群的基本花费,调查一个小群的基本花费要远远高于调查一个个体的直接花费。一般来讲:当少抽一些群而在各抽中群内较多地抽取一些小群,在各抽中小群内较多地抽取一些个体,会使抽样误差增大而调查花费减少;当多抽一些群而在各抽中群内少抽一些小群,在各抽中小群少抽一些个体,会使抽样误差减少而调查花费增大。本文正是为了解决这一矛盾,在限定抽样误差的大小使调查花费达到最小及限定调查花费的大小使抽样误差达到最小的两种情况下,求出了最优样本大小计算公式。
3.采用本文所给样本大小估计公式作三阶段抽样对总体均数,总体率作区间估计时,要求X、p呈正态分布。当变量不呈正态分布时,只要样本足够大,X、p也近似正态分布。
, 百拇医药
4.常用的多阶段抽样方法有二阶段随机抽样、分层二阶段随机抽样、三阶段随机抽样、分层三阶段随机抽样等。作者曾对二阶段随机抽样、分层二阶段随机抽样给出其样本大小估计公式。因篇幅有限,本文对分层三阶段随机抽样的样本大小估计公式未作介绍。
*铁道部科技基金资助项目[编号B97(43)]
作者单位:高 歌 上海铁道大学医学院预防医学教研室(200070)
汤旦林 北京中日友好医院生物统计研究室
参考文献
1.Cochran W.G. Sampling thechniques. 3 rd ed.New York: John Wiley & Sons,Inc., 1977,30.
2.菲赫金哥尔茨著,叶彦谦等译.微积分学教程.一卷二分册.北京:人民教育出版社,1980,475.
, http://www.100md.com
3.高歌,汤旦林.二阶段抽样样本大小的估计方法.中国卫生统计,1984,1(1):8.
4.高歌,王松桂.分层二阶段抽样样本大小的估计方法.中国卫生统计,1998,15(6): 51.
5.高歌,主编.实用卫生管理统计.第1版.合肥:中国科学技术大学出版社,1991,213.
6.Elbers AR.Estimating sample sizes for a two-stage sampling survey of seroprevalence of pseudorabies virus(PRV)-infected swine.Vet-Q.1995,17(3):92., http://www.100md.com