当前位置: 首页 > 期刊 > 《中华实用医药杂志》 > 2004年第2期
编号:10444828
主成分分析法分析广东省气候环境因素对登革热流行的影响
http://www.100md.com 《中华实用医药杂志》 2004年第2期
     【摘要】 目的 探讨气候和环境因素对登革热流行的主要影响因素,为建立登革热和媒介分布预测模型与宏观控制决策提供理论依据。方法 利用广东省1995年度实地监测到的各地登革热发病及伊蚊密度资料;收集广东省各市县的1995年度气候资料,包括各月的日照时间、降雨量、气温、温差、湿度等指标;利用ERDAS8.5软件信息添加功能,从1995年广东省的AVHRR卫星图像中提取各监测点NDVI;利用主成分分析法找出影响其分布的主要成分。结果 分析得出四个主要成分,第一主成分是BI、Mean-E、Max-Sep、Max-Aug;第二主成分是Min-UE、Min-Y;第三主成分是Tep-L、Hum;第四主成分是Fall。四个主成分综合了原17个指标的91.524%。结论 主成分分析法是登革热影响因素的指标数据压缩和综合的极好的统计分析方法。

    关键词 登革热 媒介 主成分分析 气候环境因素

    【文献标识码】 A 【文章编号】 1609-6614(2004)02-0103-04
, http://www.100md.com
    Climate and environment factors on dengue fever prevalence

    in Guangdong province by principal component analysis

    Yi Bintang,He Shunxi,Nian Chunzhi,etal.

    Center of Disease Control of Shenyang Military Area,Shenyang110034.

    【Abstract】 Objective To explore the influence factors of dengue fever and vector,and to provide theory eviˉdence for establishing the forecast model,formacroscopical decision-making of dengue fever and aedes density spatial distribution.Methods Yearly mean incidence of dengue fever and mean aedes densities are collected in Guangdong Province,1995.Climate data of all counties were collected in1995,including all monthly sunshine time,rainfall,temˉperature,temperature range,and relative humidity,et al.Using adding information function of ERDAS8.5software.NDVI(normalized difference vegetation index)were extracted form AVHRR image in1995.Principal component inˉflecting factros were analyzed by PCA.Results PCA got4principal components;the firstwas BI,Mean E,Max Sep and Max Aug;second Min UE and Min Y PCA;third Tep L and Hum;and fourth Fall.The4principalcompoˉnents included91.524%information of17indices.Conclusion PCA is good statistical analysis in data compression and integration.
, http://www.100md.com
    Key words dengue fever vector principal component analysis climate environment factor

    登革热的流行和伊蚊密度是受诸多因素的影响的,特别如气象因素、植被覆盖等具有明显的空间属性,各指标之间具有关联性。当指标过多,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠,给运算和分析带来不必要的麻烦,还可能存在主观片面性,不能很好地抓住事物的主要方面。除了用空间分析方法外,还可用主成分分析法(principal component analysis,PCA),特别是先用PCA进行筛选后再进行空间分析则效果更佳。本研究中,由于指标众多,且指标之间具有较强的关联性,故而选用PCA分析影响登革热流行和伊蚊密度的气候环境因素。

    1 资料和方法

    1.1 资料来源 (1)疫情资料:从广东省疾病控制中心收集广东省1995年各市(县)的登革热的发病资料;同时收集同期的各市(县)的伊蚊媒介种群密度(布雷图指数,Breteau Index,BI)监测资料。(2)空间结构资料:从国家地理信息研究所收集广东省1:100万以市(县)为界的电子化地图。(3)人口资料:从广东省统计局收集各市(县)的人口数。(4)卫星图片的时段和范围:收集1995年2~12月份的NOAA-14(National Oceanic and Aeronautic Administration,NOAA)卫星AVHRR(advanced very high resolution radiometer)传感器获取广东省的遥感图像,内容包括研究时段研究地域的1-5波段(band)和NDVI的10日复合图,遥感资料均来自LP-DAAC(Land Processes Distributed Active Archive Cenˉter,LP-DAAC)专业网站 [1] 。遥感图像下载范围:东经108.990°~117.903°,北纬18.148°~26.197°。
, http://www.100md.com
    1.2 方法

    1.2.1 NOAA-AVHRR遥感卫星图像的NDVI的计算与提取 利用ERDAS8.5专用软件对广东省各研究点提取NDVI(normalized difference vegetation index,NDVI),方法见文献 [2]

    1.2.2 各指标的PCA分析方法 (1)PCA的原理 设X 1 ,X 2 ,…,X m 表示原始指标,Z 1 ,Z 2 ,…,Z p 表示主成分(即综合指标),分别称第1,第2,…,第p主成分。Z 1 =a 11 X 1 +a 12 X 2 +…+a 1m X m Z 2 =a 21 X 1 +a 22 X 2 +…+a 2m X m… …Z p =a p1 X 1 +a p2 X 2 +…+a pm X m (p≤m),表示各主成分都是原始指标的线性组合,若E(Z i)=0,cov(Z i )=λ i ,且各Z i 间均相互独立,则协方差距λ=λ 1 0 λ 2 £ 0 λ m ,若m=々 m i=1 λ i ,λ k /々 m i=1 λ i =λ k /m,记作主成分Z i的贡献率;々 P i=1 λp/々 m i=1 λ i =々 P i=1 λ i /m记作前P个主成分的累计贡献率。通常累计贡献率达70%以上即可认为比较满意。从理论上讲,求得的主成分个数最多有m个,这时m个主成分就反映了全部指标所提供的信息 [3] 。②PCA的方法 Ⅰ对m个指标标准化x ij =X ij -X jS i ;Ⅱ求各指标间相关系数矩阵、特征根、特征向量;Ⅲ据特征根及累计概率的大小决定选用Z ij 。③PCA的运行 将收集到的媒介伊蚊密度(BI)、各市人口数、各市发病数、提取的NDVI和气候资料一起输入计算机,用SPSS11.0统计软件建立数据库。最后用SPSS11.0进行PCA分析找出影响登革热及媒介分布的主要成分。指标的选用的标准是经过相关分析有相关的指标 [2,4] ,包括:各地年平均媒介密度、气候因素(最低平均气温、降雨量、相对湿度)和环境因素(8月、9月、流行季节、非流行季节、全年的最大NDVI,7月、全年、流行季节、非流行季节的平均NDVI,11月、流行季节、非流行季节、全年最小NDVI)总共17个指标进行PCA分析。
, http://www.100md.com
    2 结果

    2.1 PCA分析的方差解释 将广东省各监测点的三类共 17个与登革热发病相关的指标作PCA分析,得出初始特征值initial eigenvalue)见表1。从表1可见:第一,第二,第三,第四主成分的特征值较大,分别为10.334,2.322,1.692,1.211。四者的累计方差百分比为91.524%,说明前四个主成分已经能解释17个源变量变异的91.524%,即四个主成分可以利用资料信息量的91.524%。

    表1 PCA分析的方差解释(初始特征值)略

    2.2 PCA分析的因子矩阵 为使因子载荷两极化,即使大因子载荷趋向更大,小因子载荷趋向更小,采用了因子方差最大正交旋转,在(表2)旋转因子载荷结构矩阵中,按因子载荷大小排序,且不显示小于0.1的值。表2中显示了17个变量与4个主成分之间的相关系数。第一主成分与BI的相关系数最高,为0.973,其次为Mean-E、Max-Sep、Max-Aug,相关系数依次为0.875、0.854、0.560;第二主成分主要与变量Min-UE、Min-Y的相关系数最大,分别为0.985,0.964;第三主成分则与变量Tep-L、Hum关系最密切,分别为0.949、0.622;第四主成分则主要为Fall,其相关系数为0.929。
, 百拇医药
    表2 旋转成分因子矩阵表 略

    续表2 略

    3 讨论

    登革热日益成为全球重要的公共卫生问题,广东省自1978年佛山市发生登革热流行以来,流行已达10次之多 [5] ,2002年广东省该病再次呈现出高发态势。由于登革热的影响因素复杂,传统的流行病学方法往往受到人力、财力的限制。本研究在以往研究的基础上,运用地理信息系统(GIS)、卫星遥感(SRS)技术和主成分分析(PCA)统计分析手段相结合对影响登革热的主要因素进行了分析。

    对于科研工作者来说最常思考的问题莫过有三:其一是如何进行数据的快速动态更新;其二是如何将有空间属性资料保持其属性进行空间分析;其三是如何将众多指标综合简化。如今随着科技发展和分析方法的改进,上述三个问题得到了初步解决。
, http://www.100md.com
    解决第一个问题的手段是采用遥感技术。随着近代遥感技术的飞速发展,卫星能对地球每天进行快速扫描,从而实现了对地球几近实时的反映,科学工作者通过对包含诸多信息的遥感卫星图像的解译而实现不同研究领域的不同要求,由于卫星遥感的时间上的高分辨率满足了数据快速更新的需求。本文采用的是NOAA-AVHRR卫星图像,应用ERDAS8.5软件提取环境因素的常用的重要指标标准化植被指数(normalized difference vegetation index,NDVI)进行分析。

    解决第二个问题适宜工具便是地理信息系统(geoˉgraphic information system,GIS)。GIS是近些年快速发展起来的一门技术,它集数据管理、空间分析、计算机制图等功能于一体。可以进行如空间插值、数字图像处理、多变量综合分析等较为复杂的数据分析操作。本研究所用的数据除了指标较多,且有极强的关联性外,还具有空间属性。

    解决上述第三个问题的办法一般是采用PCA。PCA作为一种常用的统计分析方法,主要用于进行数据压缩或减少数据的维度。它是对一组相关的变量进行线性变换,得到一组维数不变,但彼此互不相关的变量,亦即一组主成分。由于各主成分是不相关的,因此可以认为它们是一组独立变量。主成分按其所含信息量的大部分。因此,在随后的分析中只用前几个主成分而不会导致主要信息损失。只有将上述三种方法结合运用,才能更好地提示登革热的流行病学特征。
, http://www.100md.com
    关于数据快速更新和空间分析,已在它文阐述过 [2,4,6] 。现就PCA再作分析。

    本研究在研究气候环境因素与登革热及媒介的关系 时,由于指标较多,虽然各指标有其独立的医学意义,但又存在密切的联系,如气温与湿度、降雨量与植被覆盖等等之间。如采用常用的简单相关分析法,是无法消除指标之间的共线性的关系。用PCA不仅可以回避无偏估计假设要求的条件,而且可以将这些共同的相关信息合成少数几个综合指标来分析。这样既

    可以减少指标数量,又不使信息遭到大的损失。本文运用PCA对影响广东省登革热的17个指标以4个主成分代替。结果表明:与登革热疫情有关的主要有4个主成分。第一主成分主要反映了与媒介密度主要相关,其次是与每年的平均植被指数(Mean-E)、每年的9月份和8月份的最大植被指数。第二主要成分主要是非流行季节的最小植被指数(Min-UE)和每年的最小植被指数(Min-Y)。第三主成分主要是最低平均气温(Tep-L)和相对湿度(Hum)。第四主成分主要来自降雨量指标(Fall)。登革热发病的高低与媒介密度是密切相关的,而伊蚊密度是与气温、降雨量等是密切相关的,这主要与伊蚊的生态决定的,伊蚊在适宜的温度(28℃)、湿度(70%~80%)范围内有利于它的生长繁育,广东省全年气温较高,则制约伊蚊密度则是每年的最低温度。植被指数作为降雨、气温、地表景观等诸多指标的综合反映,茂密的植被覆盖可以缓冲炎热夏季的酷暑、保持积水的水量,为伊蚊生长、栖息提供适宜的环境,上述指标与伊蚊的生态规律是相符的。且上述的四个主成分反映了原17个指标的91.524%信息,简洁明了,具有很好的代表性,使我们用较少的指标对影响登革热的地理环境因素有了大体的了解。
, 百拇医药
    综上所述,可见这三种方法相结合,对登革热的研究是可行的,且具有较多的优点,当然,本研究还没有把对登革热的全部因素进行分析,包括社会经济、卫生习俗、生活方式、卫生防疫干预措施等对其的影响,只有充分考虑到这些因素才能全面解释登革热的影响因素。

    参考文献

    1 http://edcdaac.usgs.gov/1KM/comp10d.html.

    2 Yi BT,Xu DZ,Zhang ZY.Study on the relationship between NDVI of NOAA-AVHRR image and the aedes density in Guangdong Province.Di-si Junyi Daxue Xuebao(Fourth Mil Med Univ),2003,24(18):1720-1725.

, 百拇医药     3 Sung ZQ,Xu YY.Yixue Tongjixue[Gong Yanjiusheng Yong](Medical statistics)[for postgraduate].Beijing:Renmin Weshen Chubanshe(Peoˉple’s Publishing House),2002,321-341.

    4 Yi BT,Zhang ZY,Xu DZ.Correlation research of dengue fever epidemic and changing of climate factors in Guangdong Province.Jibing Kongzhi Zazhi(Chin J Dis Control Pre),2002,6(4):14-17.

    5 Wu KL,Wu KC,Cheng WJ,Zhao ZG.Study on mathematical model of dengue fever and its application(I)with reviewing newton’s model of dengue fever.Zhongguo Redai Yixue(China Trop Med),2001,1(1):12-16.
, 百拇医药
    6 Yi BT,Zhang ZY,Xu DZ.Spatial distribution of dengue fever in Guangˉdong Province.Di si Junyi Daxue Xuebao(FourthMil Med Univ),2003,24(18):1623-1626.

    作者单位:1 710032 陕西西安第四军医大学流行病学教研室

    2 110034 辽宁沈阳沈阳军区联勤部疾病控制中心

    3 510500 广州广州军区联勤部疾病控制中心

    4 521000 广东省潮州市第188医院

    5 521000 广东省潮州市疾病控制中心

    6 521000 广东省潮州市气象中心

    (编辑 罗彬), http://www.100md.com