稳健回归_失效点_LTS_LTS回归与M估计稳健性的比较

LTS回归与M估计稳健性的比较

http://www.100md.com 《中国卫生统计》 1999年第2期

     作者：王彤何大卫

    单位：山西医科大学卫生统计教研室(030001)

    关键词：稳健回归；失效点；LTS

    中国卫生统计990205 【提要】目的探讨可以同时抵抗回归数据中出现的Y与X空间的多个异常点的稳健回归估计方法。方法介绍了M估计与LTS估计，引入失效点的概念以讨论其稳健性尺度，并对两个模拟数据进行了分析比较。结果 LTS估计优于M估计，失效点较高。结论 LTS估计可同时抵抗X与Y方面的异常，具有极高的稳健性。

    Comparison of M-estimator and LTS Estimator in Regression.

    Wang Tong,He Dawei.

    Shan Xi Medical University(030001),Taiyuan
, 百拇医药
    【Abstract】 Objective We will explore some robust regression estimates to resist multiple outliers from both sides.Methods We introduce M estimator and LTS estimator,with breakdown point to discuss their robustness.Also,we compare two simulated data as demonstration.Results LTS estimator is superior to M estimator,and has higher breakdown point.Conclusion LTS regression can resist outliers from both sides,and it is more robust.

    【Key words】 Robust regression,Breakdown point,LTS
, http://www.100md.com
    在线性回归分析中，使用经典的最小二乘法(LS估计)求解具有许多优良性质，但此时一般都要求模型满足GM假设。在大量的医学回归实例中，许多数据并不一定满足既定的假设，于是就可以通过“残差分析”或“影响分析”对数据进行回归诊断，用以识别其中的离群点或影响点。诊断之后对识别出的异常点应审慎处理，一般不宜简单地剔除(除非经核查证实为过失误差造成)，如果此时出于专业上的要求，需将此数据拟合既定模型，则应采用一些可以抵抗异常点影响作用的稳健估计方法^〔1〕。本文将对M估计及LTS估计两种稳健回归技术作一比较，并通过两个模拟例子说明其各自的稳健性程度，以期促进稳健回归技术在医学领域中的应用。

    稳健性尺度及M估计

    为评价某种估计方法抵抗异常值扰动作用的能力，在Hodges的研究工作基础上，Hampel提出了失效点BP(Break-down Point)的概念。由于起初它是一个渐近结果，不便计算，故而Donoho和Huber定义了对于有限样本的BP为^〔2〕：

, http://www.100md.com
其中T为参数估计值，n为样本X的含量，β(m;T,X)表示将X中任意替换m个点后两次参数估计值之差的上确界。这样，有限样本的BP就表示用该法作参数估计时，允许数据中存在的不会使估计值失效的异常点数目的最小比例，当数据中的异常点比例超过BP时，估计值会变得很不稳定。某法的BP值越高，其稳健性越好，可容忍的异常点数目就越多，而且这里的稳健性对于回归来说，应同时不受X与Y两方面异常的影响。

由以上定义可知，LS估计的BP值为

，大样本情况下趋近于零，其估计原则是使各点残差平方和最小，故而它很不稳健。如果用增长速度较慢的函数ρ代替平方和函数，就可减轻异常点的影响。如Huber的M估计，其目标函数为：

    Q(β)=Σρ(Y_i-X_iβ)

    使其极小化，求导得到估计方程：Σψ(r_i)X_i=0。式中r_i=Y_i-X_iβ，ψ为ρ的导函数。为使M估计满足尺度同变性(Scale equivariant)，应将r_i除以一个稳健的尺度估计值s，然后将标准化残差r_i/s代入估计方程迭代求解。s通常取值为“绝对离差中位数”MAD(Median absolute deviation)^〔3〕,其值为1.4826×S_m,S_m=med(|r_i-med(r_i)|)，med表示中位数，1.4826=1/Φ^-1(0.75)是假定误差正态分布情况下的一致性校正因子。
, http://www.100md.com
    由于目标函数增长较慢，M估计比LS估计要稳健一些，但它只能抵抗Y方面异常，而仍然会受X方面异常点(即杠杆点)的影响，故而严格地说，其失效点仍为1/n。

    LTS估计

    为了从X与Y两方面同时抵抗异常点的扰动，下面介绍一种更为稳健的LTS(Least Trimmed Squares)回归估计。它的目标函数不是使所有各点的残差平方和最小，而是定义为使升序排列在前一半的残差平方和取最小时的估计值，这样就可使LTS估计对排序靠后的残差值较大的异常点稳健。其解可通过以下无放回的重复抽样算法来实现：

    1.确定重复抽样次数SN。

    2.从n个观察值中随机抽取P+1个不同的样本点(假定回归方程不通过原点，P为X变量个数)，代入模型，通过解P+1元方程组，得到一个回归参数向量估计值b。
, http://www.100md.com
    3.将b代回方程，计算所有n个点的残差平方和

(i=1,2,…，n)，由小到大排序为(R²)₁<(R²)₂<…<(R²)_n，并对排在前一半位置的各点残差平方求和，得到

。

    4.令j=j+1，重复以上步骤至SN=j，在所得到的SN个ST中取最小值，将此时对应的b作为β的LTS估计。

    这样得到的LST估计可以同时抵抗X与Y两方面异常的影响，且其BP=50%，达到了很高的稳健性。下面通过模拟数据来比较这两个方法。

    模拟数据结果
, http://www.100md.com
    以下模拟数据由SAS程序产生，M估计与LTS估计用SAS中的“交互式矩阵语言”(IML)实现。

    1.表1数据中前20个观测由模型Y=8-2.1X+e产生，其中X服从正态分布N(2.8，1.85²)，e服从正态分布N(0，0.2²)，后边加入的5个观测为Y方向上的异常值，它们服从均数为(2.82，19.50)，标准差为0.2的双变量正态分布。

    表1 Y方向异常点的模拟数据序号

    Y

    X

    序号

    Y

    X

, 百拇医药     序号

    Y

    X

    1

    5.7141

    0.96428

    10

    0.0114

    3.82292

    19

    5.7791

    1.20331

    2
, 百拇医药
    6.1544

    0.87827

    11

    1.3081

    3.17510

    20

    2.8934

    2.52784

    3

    -0.3644

    3.96026

    12

    6.2338
, 百拇医药
    0.90553

    21

    19.4144

    2.75822

    4

    5.1700

    1.30844

    13

    -1.7811

    4.70899

    22

    19.6156

    2.56923
, 百拇医药
    5

    9.6299

    -0.94079

    14

    0.5898

    3.60698

    23

    19.5580

    2.80399

    6

    6.3929

    0.69015

    15
, 百拇医药
    -2.9446

    5.27164

    24

    19.3509

    3.22539

    7

    7.0465

    0.46168

    16

    0.4342

    3.58672

    25

    19.4290
, 百拇医药
    2.72924

    8

    2.3733

    2.68818

    17

    3.1189

    2.47573

    9

    3.9577

    1.94393

    18

    -4.1691

    5.84596
, http://www.100md.com
    表2为对此数据LS，M及LTS的估计值，其中“基本点模拟模型”是指没有异常点干扰的前20对基本数据组成的模型。表2 Y方向异常数据的几种估计方法比较回归参数

    LS估计

    M估计

    LTS估计

    基本点

    模拟模型

    α

    10.3512

    7.9882

    8.0128

    8.0000
, http://www.100md.com
    β

    -1.6442

    -2.0514

    -2.0930

    -2.1000

    此结果说明，当数据中仅存在Y方面异常点时，LS估计会受到很大影响，M估计可在一定程度上抵抗其影响，而LTS估计非常稳健。

    2.表3数据中前20个观测由模型Y=8-2.1X+e产生，其中X服从正态分布N(2.8，2.85²)，e服从正态分布N(0，0.2²)，后边加入的5个观测在X与Y方向上均为异常，它们服从均数为(10.20，19.50)，标准差为0.2的双变量正态分布。表3 X与Y方向异常点的模拟数据序号
, http://www.100md.com
    Y

    X

    序号

    Y

    X

    序号

    Y

    X

    1

    13.4357

    -2.6180

    10

    2.2621

, 百拇医药     2.9511

    19

    -0.0145

    3.7567

    2

    7.3808

    0.2061

    11

    8.1841

    -0.0436

    20

    -4.8288

    6.0448
, 百拇医药
    3

    -9.0345

    8.2139

    12

    -0.7296

    4.2653

    21

    19.8492

    10.3570

    4

    9.1248

    -0.4925

    13
, 百拇医药
    -2.2529

    5.1118

    22

    19.4543

    10.5364

    5

    -3.9024

    5.5795

    14

    12.4265

    -2.2128

    23

    19.4951
, http://www.100md.com
    10.1587

    6

    -1.9019

    4.8249

    15

    -11.4241

    9.3575

    24

    19.3384

    9.8128

    7

    13.3114

    -2.5200
, http://www.100md.com
    16

    -7.1410

    7.2220

    25

    19.2779

    10.0949

    8

    -4.3471

    5.9405

    17

    -6.0822

    6.7026

    9
, http://www.100md.com
    4.6383

    1.8593

    18

    4.3972

    1.7845

    表4为对此数据LS，M及LTS的估计值，“基本点模拟模型”含义同上。表4 X与Y方向异常数据的几种估计方法比较回归参数

    LS估计

    M估计

    LTS估计

    基本点

    模拟模型

, 百拇医药     α

    5.0780

    5.0780

    8.0048

    8.0000

    β

    -0.0516

    -0.0516

    -2.0744

    -2.1000

    此结果说明，当数据在X与Y方面均出现异常点时，LS估计会受到很大影响，M估计此时也很不稳健，而LTS估计却不受其影响，结果非常稳健。讨论
, http://www.100md.com
    1.在LTS估计的重复抽样算法中，对抽样数SN的确定可以有两种考虑。其一是当n和P都不太大时，可穷尽一切抽样组合，取SN=C^P_n，此时得到的是LTS估计的唯一解；其二是当n和P比较大时，为减小计算时间的开销，可从一种概率角度考虑：从SN个样本中得到至少一个只包括稳定观察值(其中无异常点)的样本的概率为：1-[1-(1-e)^P+1]^SN，e为观察值中可能存在的异常点的比例，当取最大值e=50%，令此概率接近1(如95%)时，即可求得所需的抽样数SN，此时得到的是LTS估计的近似解。本文中的估计结果是在抽样数仅为100时得到的，近似已经很好。

    2.在描述复杂生命现象的医学回归数据中，可能出现的异常点数目是未知的，我们往往不能先验地判断其可能的数目，也不好预知是在Y空间或X空间有异常。当X方向存在异常值时，经典的M估计就会失效，故而作稳健回归分析时应同时考虑抵抗两方面的异常。从失效点的角度考虑，该法的BP值要尽可能的高。由以上模拟数据分析结果可以看到，LTS估计可同时抵抗X与Y方向多个异常点的影响，是一种非常稳健的回归估计技术。
, http://www.100md.com
    3.LTS回归的误差估计与M估计中的s类似，只是其中的SM由排序在前一半的残差平方和开根来代替，在此基础上就可以进一步进行有关的统计推断。另外，与其他一些用在简单线性回归分析中的稳健方法(如Theil回归)比较，LTS估计可用于多元回归过程^〔4〕。

    4.与LTS很类似的还有LMS(Least Median of Squares)估计，二者都满足“仿射等积性”(Affine Equivariat)，失效点都高达50%，同样可用于解决多个异常点诊断中复杂的“掩盖”(Masking)问题^〔5〕，但对于稳健估计而言，LTS估计的“渐近有效性”(Assymptotic Efficency)及收敛速度都较LMS估计更好。有关结果笔者将另文给出。

    (本研究得到SAS公司赞助，特此致谢)

    *本题目为全国统计科学研究项目，山西省归国人员基金项目
, http://www.100md.com
    参考文献

    1.Myers,R.H.Classical and modern regression analysis with applications(2nd ed.).Boston:PWS-Kent.1990,128.

    2.Lopuhaa H.P.Highly efficiency estimators of multivariate location with high breakdown point.The Annals of Statistics,1992,20(1):398

    3.Joseph W.M et al.The use and interpretation of residuals based on robust estimation.The Journal of American Statistical Association,1993,88(424):1254

    4.Rousseeuw P.J & Leroy A.M.Robust regression and outlier detection.Toronto:John Wiley & Sons 1987,43

    5.王彤，何大卫.线性回归中多个异常点的稳健诊断及其医学应用.中国卫生统计1998，15(5)：1, http://www.100md.com

百拇医药网 http://www.100md.com/html/analecta/2003/08/28/60/006.htm