多序列相关系数及其估计
作者:陈冠民 张选群 陈华
单位:湖北医科大学医学统计教研室 武汉430071
关键词:多序列相关系数;全参数模型;模拟
数理医药学杂志990203
摘要 探讨多序列相关系数的全参数模型估计、二阶段估计和ad hoc估计方法,用monte-carlo方法模拟了其估计的真实性,并进一步讨论了多序列相关系数在生物医学领域应用的意义。
医学研究中所观察到的变量有些是有序分类的,如是否喜食咸味食品,通常有以下几种情况:①喜欢;②一般;③不喜欢。经典的方法是把这些变量赋值作为连续变量来处理(如分别赋值为1、2、3)。对这些变量,尽管直接赋值后求出协方差矩阵或相关系数矩阵在配合模型时具有较好的稳健性,但从理论到实践都认为存在不足[1]。近代统计学家Olsson等人发展了专门用于计算一个有序分类变量与一个连续变量相关的多序列相关系数[2,3],为解决此问题提供了有效的手段。Monte-Carlo模拟表明,这种新技术产生的相关系数要比经典的方法更接近真实的相关系数。
, http://www.100md.com
1 多序列相关系数的意义
假定有一个连续变量X和一个潜在变量(连续变量)η,且服从双变量标准正态分布,记其相关系数为PXη=P。同时假定有一个有序分类变量Y与η有如下的阶梯函数:
Y=1,当b0≤η1
Y=2,当b1≤η2… …
Y=r,当br-1≤ηr,也可以写成更一般的形式:
Y=Yj,当bj-1≤ηj,j=2,…,r b0=-∞,br=+∞ (1)
, 百拇医药
Yj-1j,即Yj是有序的,取值一般为1、2、3等,则Y=Yj的概率为:
Prob(Y=Yj)=PJ=Φ(bj)-Φ(bj-1) (2)
其中,,即η的分布函数。
将X与Y(Y取1,2,3等有序整数)的积矩相关系数称为点的多序列相关系数,而将X与η的相关系数称为多序列相关系数。
2 多序列相关系数的估计方法
2.1 全参数模型
, http://www.100md.com
对于N个(Xi,Yi)的观察样本,其似然函数为: (3)
其中P(Xi)为正态分布变量X的密度函数,即:(4)
假定Z=(X-μ)/σ,在给定X的情况下,η服从于均数为ρz、方差为(1-ρ)2的条件正态分布,则式(2)中Y的正态分布的条件概率为:
P(Y=yj|x)=Φ(b*j)-Φ(b*j-1), j=1,2,…,r (5)
, 百拇医药 其中,,j=1,2,…,r。ρ是X与η的双变量正态分布的相关系数。对式(3)求对数得:(6)
分别对式(6)求ρ、μ、σ2及bj的偏导数,并令其等于0的同时解,即可得到要估计的参数ρ、μ、σ2、bj。其对应的偏导数如下[2,3]:
, http://www.100md.com
其中δm,m'是δ函数,当m=m'时,δm,m'=1;当m≠m'时,δm,m'=0。
2.2 多序列相关系数的二阶段估计
多序列相关系数的二阶段估计是先用yj的累计百分比的正态分布的倒数来估计约束条件bj,即:
bj=Φ-1(Pj) (11)
用样本估计μ,用样本的方差估计σ2,然后再对似然函数求导,根据式(7)求出相应的相关系数ρ。
2.3 ad hoc估计
Olsson曾证明X与η的相关系数ρ的估计与rxy有如下的关系:(12)
, http://www.100md.com
其中,rxy为X与Y的积矩相关系数,Sy是Y的标准差,φ(bj)为正态密度函数。
采用公式(11)求约束条件b1,b2,…,br,然后根据式(12)我们可以很方便的估计出ρ,通过Monte-Carlo方法模拟表明,即使用ad hoc估计的也比rxy更接近于真实的相关系数。
3 模拟实例
为验证三种估计方法的效果,设定了四个维度的参数对其进行了模拟分析,这四个因素是:
1.样本含量:用N=500进行实验;
2.连续变量的偏度参数:γ=0时的对称分布,γ=1时的偏态分布;
, http://www.100md.com
3.真实的相关系数:分别为ρ=0.25、ρ=0.5和ρ=0.75;
4.有序分类变量的等级分别为r=3和r=7,分别进行了50次的重复实验,其相关系数的均数见附表。
附表 多序列相关系数的估计 ρ
r
γ
积矩相关系数
AdHoc估计
最大似然估计
二阶段估计
N=500
0.25
, http://www.100md.com
3
0
0.224(0.0502)
0.250(0.0479)
0.249(0.0478)
0.250(0.0478)
3
1
0.207(0.0625)
0.253(0.0565)
0.252(0.0562)
0.252(0.0546)
, 百拇医药
7
0
0.232(0.0453)
0.240(0.0443)
0.240(0.0442)
0.240(0.0442)
7
1
0.217(0.0546)
0.248(0.0477)
0.248(0.0500)
0.248(0.0500)
, http://www.100md.com
0.50
3
0
0.453(0.0581)
0.505(0.0382)
0.504(0.0380)
0.504(0.0380)
3
1
0.404(0.1021)
0.493(0.0417)
0.493(0.0385)
, http://www.100md.com
0.493(0.0385)
7
0
0.485(0.0365)
0.501(0.0342)
0.501(0.0341)
0.501(0.0340)
7
1
0.440(0.0730)
0.502(0.0477)
0.501(0.0466)
, 百拇医药
0.501(0.0466)
0.75
3
0
0.673(0.0793)
0.751(0.0229)
0.750(0.0230)
0.750(0.0228)
3
1
0.617(0.1335)
0.754(0.0285)
, 百拇医药
0.751(0.0245)
0.752(0.0246)
7
0
0.739(0.0271)
0.753(0.0177)
0.752(0.0175)
0.752(0.0173)
7
1
0.659(0.0931)
0.751(0.0228)
, 百拇医药
0.749(0.0209)
0.749(0.0212)
注:* 括号内为对应的均方误
从附表可以看出,连续性变量为正态分布以及有序分类变量所分的等级较多时,三种方法估计的多序列相关系数都十分接近于真实的相关系数。
注释:湖北省科委资助课题
作者简介:张选群,湖北医科大学数学教研室
参考文献
1 陈冠民,等.Ⅱ型糖尿病危险因素的线性结构关系模型分析.中国卫生统计,1998,15(2):7.
2 Olsson U.The Polyserial Correlation coefficient Psychometrika. 1982,47(3):337.
3 Sik-Yum,L& wAI-Yin,P. Maximum likelihood estimation of polyserial correlation Psychometrika. 1986,51(1):113.
收稿日期:1999-01-15, 百拇医药
单位:湖北医科大学医学统计教研室 武汉430071
关键词:多序列相关系数;全参数模型;模拟
数理医药学杂志990203
摘要 探讨多序列相关系数的全参数模型估计、二阶段估计和ad hoc估计方法,用monte-carlo方法模拟了其估计的真实性,并进一步讨论了多序列相关系数在生物医学领域应用的意义。
医学研究中所观察到的变量有些是有序分类的,如是否喜食咸味食品,通常有以下几种情况:①喜欢;②一般;③不喜欢。经典的方法是把这些变量赋值作为连续变量来处理(如分别赋值为1、2、3)。对这些变量,尽管直接赋值后求出协方差矩阵或相关系数矩阵在配合模型时具有较好的稳健性,但从理论到实践都认为存在不足[1]。近代统计学家Olsson等人发展了专门用于计算一个有序分类变量与一个连续变量相关的多序列相关系数[2,3],为解决此问题提供了有效的手段。Monte-Carlo模拟表明,这种新技术产生的相关系数要比经典的方法更接近真实的相关系数。
, http://www.100md.com
1 多序列相关系数的意义
假定有一个连续变量X和一个潜在变量(连续变量)η,且服从双变量标准正态分布,记其相关系数为PXη=P。同时假定有一个有序分类变量Y与η有如下的阶梯函数:
Y=1,当b0≤η1
Y=2,当b1≤η2… …
Y=r,当br-1≤ηr,也可以写成更一般的形式:
Y=Yj,当bj-1≤ηj,j=2,…,r b0=-∞,br=+∞ (1)
, 百拇医药
Yj-1
Prob(Y=Yj)=PJ=Φ(bj)-Φ(bj-1) (2)
其中,,即η的分布函数。
将X与Y(Y取1,2,3等有序整数)的积矩相关系数称为点的多序列相关系数,而将X与η的相关系数称为多序列相关系数。
2 多序列相关系数的估计方法
2.1 全参数模型
, http://www.100md.com
对于N个(Xi,Yi)的观察样本,其似然函数为: (3)
其中P(Xi)为正态分布变量X的密度函数,即:(4)
假定Z=(X-μ)/σ,在给定X的情况下,η服从于均数为ρz、方差为(1-ρ)2的条件正态分布,则式(2)中Y的正态分布的条件概率为:
P(Y=yj|x)=Φ(b*j)-Φ(b*j-1), j=1,2,…,r (5)
, 百拇医药 其中,,j=1,2,…,r。ρ是X与η的双变量正态分布的相关系数。对式(3)求对数得:(6)
分别对式(6)求ρ、μ、σ2及bj的偏导数,并令其等于0的同时解,即可得到要估计的参数ρ、μ、σ2、bj。其对应的偏导数如下[2,3]:
, http://www.100md.com
其中δm,m'是δ函数,当m=m'时,δm,m'=1;当m≠m'时,δm,m'=0。
2.2 多序列相关系数的二阶段估计
多序列相关系数的二阶段估计是先用yj的累计百分比的正态分布的倒数来估计约束条件bj,即:
bj=Φ-1(Pj) (11)
用样本估计μ,用样本的方差估计σ2,然后再对似然函数求导,根据式(7)求出相应的相关系数ρ。
2.3 ad hoc估计
Olsson曾证明X与η的相关系数ρ的估计与rxy有如下的关系:(12)
, http://www.100md.com
其中,rxy为X与Y的积矩相关系数,Sy是Y的标准差,φ(bj)为正态密度函数。
采用公式(11)求约束条件b1,b2,…,br,然后根据式(12)我们可以很方便的估计出ρ,通过Monte-Carlo方法模拟表明,即使用ad hoc估计的也比rxy更接近于真实的相关系数。
3 模拟实例
为验证三种估计方法的效果,设定了四个维度的参数对其进行了模拟分析,这四个因素是:
1.样本含量:用N=500进行实验;
2.连续变量的偏度参数:γ=0时的对称分布,γ=1时的偏态分布;
, http://www.100md.com
3.真实的相关系数:分别为ρ=0.25、ρ=0.5和ρ=0.75;
4.有序分类变量的等级分别为r=3和r=7,分别进行了50次的重复实验,其相关系数的均数见附表。
附表 多序列相关系数的估计 ρ
r
γ
积矩相关系数
AdHoc估计
最大似然估计
二阶段估计
N=500
0.25
, http://www.100md.com
3
0
0.224(0.0502)
0.250(0.0479)
0.249(0.0478)
0.250(0.0478)
3
1
0.207(0.0625)
0.253(0.0565)
0.252(0.0562)
0.252(0.0546)
, 百拇医药
7
0
0.232(0.0453)
0.240(0.0443)
0.240(0.0442)
0.240(0.0442)
7
1
0.217(0.0546)
0.248(0.0477)
0.248(0.0500)
0.248(0.0500)
, http://www.100md.com
0.50
3
0
0.453(0.0581)
0.505(0.0382)
0.504(0.0380)
0.504(0.0380)
3
1
0.404(0.1021)
0.493(0.0417)
0.493(0.0385)
, http://www.100md.com
0.493(0.0385)
7
0
0.485(0.0365)
0.501(0.0342)
0.501(0.0341)
0.501(0.0340)
7
1
0.440(0.0730)
0.502(0.0477)
0.501(0.0466)
, 百拇医药
0.501(0.0466)
0.75
3
0
0.673(0.0793)
0.751(0.0229)
0.750(0.0230)
0.750(0.0228)
3
1
0.617(0.1335)
0.754(0.0285)
, 百拇医药
0.751(0.0245)
0.752(0.0246)
7
0
0.739(0.0271)
0.753(0.0177)
0.752(0.0175)
0.752(0.0173)
7
1
0.659(0.0931)
0.751(0.0228)
, 百拇医药
0.749(0.0209)
0.749(0.0212)
注:* 括号内为对应的均方误
从附表可以看出,连续性变量为正态分布以及有序分类变量所分的等级较多时,三种方法估计的多序列相关系数都十分接近于真实的相关系数。
注释:湖北省科委资助课题
作者简介:张选群,湖北医科大学数学教研室
参考文献
1 陈冠民,等.Ⅱ型糖尿病危险因素的线性结构关系模型分析.中国卫生统计,1998,15(2):7.
2 Olsson U.The Polyserial Correlation coefficient Psychometrika. 1982,47(3):337.
3 Sik-Yum,L& wAI-Yin,P. Maximum likelihood estimation of polyserial correlation Psychometrika. 1986,51(1):113.
收稿日期:1999-01-15, 百拇医药