回归函数的分解及其应用
作者:吴贤毅
单位:华东师范大学统计系 上海200062
关键词:回归模型;方差分析方法;均值漂移模型;线性假设 线性分量部分;非线性分量部分
数理医药学杂志990216
摘要 利用均值漂移的思想,在试验有重复的场合,将回归函数分解为线性分量部分与非线性分量部分,并由此给出了回归模型为线性的线性假设形式,并证明了该形式下所得到的检验统计量与用方差分析方法所得到的检验统计量一致,这在某种程度上说明了用方差分析方法检验回归函数的线性性是一优良的方法。此外,导出了回归函数的线性分量部分与非线性分量部分的估计。
1 引言
在线性回归的理论中,关于回归系数的线性假设的检验有一套完美的解决方法,其检验方法具有若干优良性,因此在本文中,对于有重复试验的情形,我们利用正交投影将回归函数(并不假定其为线性函数)分解为两部分:一部分为自变量的线性函数,称为线性分量部分;而另一部分为一些人工变量的线性组合,称为非线性分量部分。把非线性回归问题转化为形式上的线性回归问题,进而将回归函数是否为线性的检验问题转化为非线性部分是否为零这样一个线性假设的检验问题,并证明了该线性假设的检验统计量与利用方差分析所得到的检验统计量是一致的。本文还导出了线性分量部分与非线性分量部分的估计。
, 百拇医药
下面,先介绍有关的记号与说明。
设x=(x1,x2,…,xp-1)为p-1维的自变量(这里“”表示向量或矩阵的转置,下同),y为响应变量(或叫做因变量),我们用m(x)=E(y|x)表示y对x的回归函数,则有
y=m(x)+ε (1)
若m(x)是x的线性函数,则
Y=β0+xβ*+ε (2)
其中,β*=(β1,β2,…,βp-1)为线性组合系数,β0为常数项,ε为随机误差项,假设E(ε)=0,Var(ε)=σ2,若要作假设检验,一般还需假定ε~N(0,σ2)。
, 百拇医药
记xi=(xi1,xi2,…,xi(p-1)),i=1,2,…,r。表示r个试验点,在xi点处作了mi次试验,得y的值为yi1,…,yim,且m1,m2,…,mr中至少有一个大于1,记yi=(yi1…yim),Y=(y1,y2,…,yr)有
yij=m(xi)+εij,j=1,2,…,mi,i=1,2,…,r (3)
或
, http://www.100md.com yi=m(xi)1mi+εi,i=1,2,…,r (4)
其中1mi为mi维的分量全为1的列向量(i=1,2,…,r),以后1mi的意义也如此。
若E(y|x)是x的线性函数,则
yij=β0+xiβ*+εij,j=1,2,…,mi,i=1,2,…,r (5)
或 yi=(β0+xiβ*)1mi+εi,i=1,2,…,r (6)
, http://www.100md.com
记ε=(ε11,…,ε1m1,…,εr1,…,εrmr),
为叙述方便,将(4)式写成:
Y=AM(X)+ε (7)
将(5)或(6)记为
Y=β0+X*β*+εXβ+ε (8)
为讨论方便,设r>p且X0为列满秩矩阵,即rank(X0)=P。
, http://www.100md.com 2 结果
我们先给出下面的引理:
引理1 Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕=r-P
证明:因为
X0'A'A(Ir-X0(X0'A'AX0)-1X0'A'A)=0
所以
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕≤r-Rank(X0'A'A)=r-Rank(X0)=r-P (9)
, 百拇医药
又由于
X0(X0'A'AX0)-1X0'A'A+〔Ir-X0(X0'A'AX0)-1X0'A'A〕=Ir
所以
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕+Rank〔X0(X0'A'AX0)-1X0'A'A〕≥Rank(Ir)=r
, 百拇医药
即
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕≥Rank(Ir)-Rank〔X0(X0'A'AX0)-1X0'A'A〕
注意到
Rank〔X0(X0'A'AX0)-1X0'A'A〕≤Rank(X0)=P
有
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕≥r-P (10)
, http://www.100md.com
由(9),(10)两式可知
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕=r-P
引理得证。
引理2 若记P=X(X'X')-X',N=In-P,XA=X(…A),PA=XA(XA'XA)-XA',NA=In-PA则PA=P+NA(A'NA)-A'N,NA=N-NA(A'NA)-A'N (11)
, 百拇医药
其中矩阵右上角的“-”表示矩阵广义逆。
引理2是熟知的投影矩阵的分解公式[2]。
若m(x)不是x的线性函数,我们将AM(X)进行分解为两部分
AM(X)=PAM(X)+NAM(X)
分别表示向X的列向量空间及其正交补空间的正交投影矩阵,由于
将(7)写成 (12)
则中自由参数的个数等于
, 百拇医药
Rank〔(X0'A'AX0)-1X0'A'A〕=Rank(X0)=P=参数个数中自由参数的个数等于
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕=r-P<参数个数。
从引理1的证明中还可以看出,满足的最大约束为 (13)
这样,在回归函数非线性的情况我们将回归模型(7)转变为形式上的线性回归模型(12),在(12)式中,我们将X称为Y对X回归的线性分量部分,而将A称为Y对X回归的非线性分量部分,这一部分也是回归函数在试验点上对线性函数的漂移,由于不致引起混淆,仍将X与A分别记为Xβ及Aγ,进而将(8)与(7)分别记为
, 百拇医药
Y=Xβ+ε (14)
Y=Xβ+Aγ+ε (15)
因此,要检验Y对X*的回归函数是否为线性函数,就转换为检验假设:
H0:γ=0 (16)
这样,回归函数是否为线性的检验问题就转化为线性模型(15)中参数γ是否为零这样一个线性假设的检验问题,而后一问题在线性模型的理论中具有一套完美的解决方法,其检验方法具有种种的优良性。此外,我们还可以利用(15)式估计出Y对X*回归的非线性分量部分Aγ。
以下我们讨论线性假设(16)式的检验问题,设ε~N(0,σIn)。根据线性假设的检验方法,我们知道H0的检验统计量为
, http://www.100md.com
(17)
定理1 令,i=1,2,…,r。Rss=YNY,T=,则(17)式的F可表示为:(18)
证明:由(17)及(11)式我们知道:(19)
下面我们来计算Y'NA(A'NA)-A'NY,Y'〔N-NA(A'NA)-A'N〕Y的具体表达式。首先,根据X=AX0,我们有
, http://www.100md.com
X'X=X0'A'AX0=X0'MX0
其中,M=Diag(m1,m2,…,mr)是以主对角线上元素分别为m1,m2,…,mr的r阶对角矩阵,故
P=AX0(X0'A'AX0)-X0'A'
NA=A-AX0(X0'MX0)-X0'A'A=A〔Ir-X0(X0'MX0)-X0'M〕
, http://www.100md.com
A'NA=(A'N)(NA)=M-MX0(X0'MX0)-(X0'M
NA(A'NA)-A'N=A〔Ir-X0(X0'MX0)-X0'M〕〔M-MX0(X0'MX0)-X0'M〕-〔Ir-MX0(X0'MX0)-X0'〕A'
=N-(In-AM-1A)
, http://www.100md.com
由于,Rss=YNY,Y(In-AM-1A')Y==T得
Y'NA(A'NA)-A'NY=Y'NY-Y'(In-AM-1A')Y=Rss-T
Y'〔N-NA(A'NA)-A'N〕Y=Y'(In-AM-1A')Y=T
因此
定理证毕。
注意到(18)式正是由方差分析方法所得到的回归函数是否为线性函数这一零假设的检验统计量。因此,定理1从侧面说明了用方差分析方法检验回归函数的线性性是一优良的方法。
, http://www.100md.com
下面导出回归函数的线性部分与非线性部分的估计。
因为M(X)的最小二乘估计为=M-1AY,因此Xβ与Aγ的估计分别为:
X=PA(X)=PAM-1A'Y=AX0(X0'A'AX0)-1X0'A'AM-1A'Y=PY
A=NA(X)=A〔Ir-X0(X0'A'AX0)-1X0'A'A〕M-1A'Y=AM-1A'Y-PY=AM-1A'NY
, http://www.100md.com
或=(X0'MX0)-1X0'A'Y (20)=M-1A'NY (21)
从(20)、(21)式可以看出,首先,是Y对X作线性回归的最小二乘估计,这就是说,如果y对x的回归函数不是x的线性函数却硬要将Y对X作线性回归,则所估计出的回归函数实际只是回归函数的线性分量部分而不是回归函数本身。其次,是Y对X作线性回归的残差对形式变量A作线性回归(截距置为0)的最小二乘估计,这一点使得利用现成的统计软件计算和非常方便。
参考文献
1 陈希孺,王松桂.近代实用回归分析.广西人民出版社,1984.
2 韦博成,鲁国斌,史建清.统计诊断引论.东南大学出版社,1991.
收稿日期:1998-08-27, 百拇医药
单位:华东师范大学统计系 上海200062
关键词:回归模型;方差分析方法;均值漂移模型;线性假设 线性分量部分;非线性分量部分
数理医药学杂志990216
摘要 利用均值漂移的思想,在试验有重复的场合,将回归函数分解为线性分量部分与非线性分量部分,并由此给出了回归模型为线性的线性假设形式,并证明了该形式下所得到的检验统计量与用方差分析方法所得到的检验统计量一致,这在某种程度上说明了用方差分析方法检验回归函数的线性性是一优良的方法。此外,导出了回归函数的线性分量部分与非线性分量部分的估计。
1 引言
在线性回归的理论中,关于回归系数的线性假设的检验有一套完美的解决方法,其检验方法具有若干优良性,因此在本文中,对于有重复试验的情形,我们利用正交投影将回归函数(并不假定其为线性函数)分解为两部分:一部分为自变量的线性函数,称为线性分量部分;而另一部分为一些人工变量的线性组合,称为非线性分量部分。把非线性回归问题转化为形式上的线性回归问题,进而将回归函数是否为线性的检验问题转化为非线性部分是否为零这样一个线性假设的检验问题,并证明了该线性假设的检验统计量与利用方差分析所得到的检验统计量是一致的。本文还导出了线性分量部分与非线性分量部分的估计。
, 百拇医药
下面,先介绍有关的记号与说明。
设x=(x1,x2,…,xp-1)为p-1维的自变量(这里“”表示向量或矩阵的转置,下同),y为响应变量(或叫做因变量),我们用m(x)=E(y|x)表示y对x的回归函数,则有
y=m(x)+ε (1)
若m(x)是x的线性函数,则
Y=β0+xβ*+ε (2)
其中,β*=(β1,β2,…,βp-1)为线性组合系数,β0为常数项,ε为随机误差项,假设E(ε)=0,Var(ε)=σ2,若要作假设检验,一般还需假定ε~N(0,σ2)。
, 百拇医药
记xi=(xi1,xi2,…,xi(p-1)),i=1,2,…,r。表示r个试验点,在xi点处作了mi次试验,得y的值为yi1,…,yim,且m1,m2,…,mr中至少有一个大于1,记yi=(yi1…yim),Y=(y1,y2,…,yr)有
yij=m(xi)+εij,j=1,2,…,mi,i=1,2,…,r (3)
或
, http://www.100md.com yi=m(xi)1mi+εi,i=1,2,…,r (4)
其中1mi为mi维的分量全为1的列向量(i=1,2,…,r),以后1mi的意义也如此。
若E(y|x)是x的线性函数,则
yij=β0+xiβ*+εij,j=1,2,…,mi,i=1,2,…,r (5)
或 yi=(β0+xiβ*)1mi+εi,i=1,2,…,r (6)
, http://www.100md.com
记ε=(ε11,…,ε1m1,…,εr1,…,εrmr),
为叙述方便,将(4)式写成:
Y=AM(X)+ε (7)
将(5)或(6)记为
Y=β0+X*β*+εXβ+ε (8)
为讨论方便,设r>p且X0为列满秩矩阵,即rank(X0)=P。
, http://www.100md.com 2 结果
我们先给出下面的引理:
引理1 Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕=r-P
证明:因为
X0'A'A(Ir-X0(X0'A'AX0)-1X0'A'A)=0
所以
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕≤r-Rank(X0'A'A)=r-Rank(X0)=r-P (9)
, 百拇医药
又由于
X0(X0'A'AX0)-1X0'A'A+〔Ir-X0(X0'A'AX0)-1X0'A'A〕=Ir
所以
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕+Rank〔X0(X0'A'AX0)-1X0'A'A〕≥Rank(Ir)=r
, 百拇医药
即
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕≥Rank(Ir)-Rank〔X0(X0'A'AX0)-1X0'A'A〕
注意到
Rank〔X0(X0'A'AX0)-1X0'A'A〕≤Rank(X0)=P
有
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕≥r-P (10)
, http://www.100md.com
由(9),(10)两式可知
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕=r-P
引理得证。
引理2 若记P=X(X'X')-X',N=In-P,XA=X(…A),PA=XA(XA'XA)-XA',NA=In-PA则PA=P+NA(A'NA)-A'N,NA=N-NA(A'NA)-A'N (11)
, 百拇医药
其中矩阵右上角的“-”表示矩阵广义逆。
引理2是熟知的投影矩阵的分解公式[2]。
若m(x)不是x的线性函数,我们将AM(X)进行分解为两部分
AM(X)=PAM(X)+NAM(X)
分别表示向X的列向量空间及其正交补空间的正交投影矩阵,由于
将(7)写成 (12)
则中自由参数的个数等于
, 百拇医药
Rank〔(X0'A'AX0)-1X0'A'A〕=Rank(X0)=P=参数个数中自由参数的个数等于
Rank〔Ir-X0(X0'A'AX0)-1X0'A'A〕=r-P<参数个数。
从引理1的证明中还可以看出,满足的最大约束为 (13)
这样,在回归函数非线性的情况我们将回归模型(7)转变为形式上的线性回归模型(12),在(12)式中,我们将X称为Y对X回归的线性分量部分,而将A称为Y对X回归的非线性分量部分,这一部分也是回归函数在试验点上对线性函数的漂移,由于不致引起混淆,仍将X与A分别记为Xβ及Aγ,进而将(8)与(7)分别记为
, 百拇医药
Y=Xβ+ε (14)
Y=Xβ+Aγ+ε (15)
因此,要检验Y对X*的回归函数是否为线性函数,就转换为检验假设:
H0:γ=0 (16)
这样,回归函数是否为线性的检验问题就转化为线性模型(15)中参数γ是否为零这样一个线性假设的检验问题,而后一问题在线性模型的理论中具有一套完美的解决方法,其检验方法具有种种的优良性。此外,我们还可以利用(15)式估计出Y对X*回归的非线性分量部分Aγ。
以下我们讨论线性假设(16)式的检验问题,设ε~N(0,σIn)。根据线性假设的检验方法,我们知道H0的检验统计量为
, http://www.100md.com
(17)
定理1 令,i=1,2,…,r。Rss=YNY,T=,则(17)式的F可表示为:(18)
证明:由(17)及(11)式我们知道:(19)
下面我们来计算Y'NA(A'NA)-A'NY,Y'〔N-NA(A'NA)-A'N〕Y的具体表达式。首先,根据X=AX0,我们有
, http://www.100md.com
X'X=X0'A'AX0=X0'MX0
其中,M=Diag(m1,m2,…,mr)是以主对角线上元素分别为m1,m2,…,mr的r阶对角矩阵,故
P=AX0(X0'A'AX0)-X0'A'
NA=A-AX0(X0'MX0)-X0'A'A=A〔Ir-X0(X0'MX0)-X0'M〕
, http://www.100md.com
A'NA=(A'N)(NA)=M-MX0(X0'MX0)-(X0'M
NA(A'NA)-A'N=A〔Ir-X0(X0'MX0)-X0'M〕〔M-MX0(X0'MX0)-X0'M〕-〔Ir-MX0(X0'MX0)-X0'〕A'
=N-(In-AM-1A)
, http://www.100md.com
由于,Rss=YNY,Y(In-AM-1A')Y==T得
Y'NA(A'NA)-A'NY=Y'NY-Y'(In-AM-1A')Y=Rss-T
Y'〔N-NA(A'NA)-A'N〕Y=Y'(In-AM-1A')Y=T
因此
定理证毕。
注意到(18)式正是由方差分析方法所得到的回归函数是否为线性函数这一零假设的检验统计量。因此,定理1从侧面说明了用方差分析方法检验回归函数的线性性是一优良的方法。
, http://www.100md.com
下面导出回归函数的线性部分与非线性部分的估计。
因为M(X)的最小二乘估计为=M-1AY,因此Xβ与Aγ的估计分别为:
X=PA(X)=PAM-1A'Y=AX0(X0'A'AX0)-1X0'A'AM-1A'Y=PY
A=NA(X)=A〔Ir-X0(X0'A'AX0)-1X0'A'A〕M-1A'Y=AM-1A'Y-PY=AM-1A'NY
, http://www.100md.com
或=(X0'MX0)-1X0'A'Y (20)=M-1A'NY (21)
从(20)、(21)式可以看出,首先,是Y对X作线性回归的最小二乘估计,这就是说,如果y对x的回归函数不是x的线性函数却硬要将Y对X作线性回归,则所估计出的回归函数实际只是回归函数的线性分量部分而不是回归函数本身。其次,是Y对X作线性回归的残差对形式变量A作线性回归(截距置为0)的最小二乘估计,这一点使得利用现成的统计软件计算和非常方便。
参考文献
1 陈希孺,王松桂.近代实用回归分析.广西人民出版社,1984.
2 韦博成,鲁国斌,史建清.统计诊断引论.东南大学出版社,1991.
收稿日期:1998-08-27, 百拇医药