当前位置: 首页 > 期刊 > 《中国医院院长》 > 2014年第17期
编号:13123691
大数据时代统计分析转型
http://www.100md.com 2014年9月1日 《中国医院院长》 2014年第17期
     随着数据规模的扩大,传统的抽样分析面临着挑战。对抽样分析结果是否具有整体代表性以及数据自身的可靠性提出质疑,这就需要运用大数据分析方法再次完成检验。

    随着人们对大数据分析方法的逐渐掌握,其对以往小样本、小数据精确度的痴迷程度必将逐步减弱。过去对小数据而言,最基本、最重要、最关键的要求是减少抽样误差,以保证数据分析结果的质量。随着信息化时代的来临,人们掌握的数据越来越多,不再仅是利用手头的有限数据,而需对与之相关的全部数据甚至海量数据进行汇总分析应用,这也正切合了计算机的最大优势。

    “抽样分析”的尴尬

    笔者简单剖析一篇近期媒体报道的案例,以引起业内对大数据时代统计分析新特点的关注。8月13日,在《健康报》头版刊登的《急性心梗治疗效果10年无改善》一文中,我国权威专家指出:2001-2011年,我国急性心肌梗死(以下简称“心梗”)住院患者人数增加4倍,但是住院病死率以及主要并发症发生率等并无明显下降。这一结论可能偏离事实本身,值得商榷与讨论。
, http://www.100md.com
    其一,抽样数据量可能欠充分,而且文章中并未具体介绍样本总体规模。根据调查研究的需要,确定样本量的总体规模是抽样的前提。因为,总体规模涵盖不全面可直接导致抽样误差和结果无效。

    其二,本案并未从总体样本中抽取10年样本,而是分别从2001年、2006年和2011年因急性心梗住院的全部案例中随机抽取18 631例。研究病例来自国内162家医院,其中涵盖63家城市大型医院,计算可得出每家医院平均每年仅抽取38例心梗患者。根据笔者掌握的情况,众多大型医院每年收治的急性心梗患者为数百例乃至数千例之多,每年仅抽取38例患者的抽取数据量并不符合统计学的要求。而且,由于样本量不足,抽样误差往往难以避免。

    其三,该研究者对63家城市大型医院和99家县级医院的患者数据汇总统计也欠合理。作者既往调查显示,我国二级医院间收治规模与技术水平差距显著,较大规模的二级医院床位可达千余张,较小规模的二级医院床位仅在一二百张,后者多数并不具备救治急性心梗的条件。许多省市的政策文件明确规定,二级医院不准开展急性心梗再灌注治疗与冠状动脉支架植入治疗。因此,把两组样本数据叠加分析而笼统下结论有失偏颇。
, 百拇医药
    2013年,受原卫生部医管司委托,卫生部医院管理研究所与北京大学医学部合作调查了43家大型综合医院收治的54 271例急性心梗患者数据,全样本分析表明,急性心梗住院死亡率呈逐年下降趋势,2010年为6.46%,2011年为5.96%,2012年为5.33%,其中2011年、2012年结果略低于美国2013年公布的急性心梗平均死亡率(6.03%)。我国经皮冠状动脉介入治疗的住院死亡率亦显现连年降低态势,许多大型综合医院的数字低于美国平均水平(1.75%)。

    不难看出,急性心梗死亡率的逐年下降得益于广大医务人员救治意识与质量的持续稳定提升,而且建立重症监护病房、急诊绿色通道、急性心梗单病种质量评价等举措也为改善患者预后提供有效支撑。

    不可回避的是,由于急性心梗具备急、危、重特点,对于偏远、交通不便的县医院,仍需国家以及大型综合医院从政策、设备设施、人才培养与技术帮扶层面给予更强有力支持,早日实现急性心梗救治的“无死角”格局。
, 百拇医药
    拥抱“全样本分析”

    该案例带给人们的更重要的启发与深刻思考在于:大数据时代统计分析必须转变思路,统计方法应与时俱进、与时俱新。在计算机技术飞速发展的今天,人们应尽量运用已有大量资料完成“全样本分析”,而非目前通行的抽样分析。这是大数据时代统计分析的新特征和新要求。除非全无储存数据或必须实施现场调查资料分析,因为全样本大数据分析可有效避免抽样误差。

    “大数据”概念源自互联网,它要求的数据分析远不是现有数据处理技术所能够实现的。有研究者认为,在大数据时代到来之时,传统的社会学、统计学从业者,面对半道杀出来的计算机背景的互联网数据挖掘者,就好比波兰骑兵面对德国坦克一样脆弱。这意味着,以往被视为最佳实践方案的数据采样时代已然成为历史。

    “全样本分析”是指分析整个数据库储存数据而非仅分析单样本,意即大数据概念。分析整个数据库能提高微观层面分析的准确性,甚至推测出任何特定尺度的数据特征。例如,谷歌对流感趋势预测并非依赖随机抽样分析,而是分析全美数十亿条互联网检索记录得到结论,这是“全样本分析”的典型案例。
, 百拇医药
    研究者认为,“大数据”时代使人类第一次有机会和条件在诸多领域深层次获取和使用全面数据、完整数据和系统数据。传统的统计遵循自上而下实证研究范式,即先从经济理论或社会经验出发,根据理论设定指标,统计、利用数据完成实证分析。“大数据”时代采用自下而上的数据挖掘范式,以数据为先导,无需预先设定研究目的或方法,而是从大量实际数据中通过数据挖掘技术找到数据关系并建立模型,乃至形成理论和新知。该研究范式已被广泛运用于当前数据处理,是对传统统计研究范式的颠覆。

    在大数据时代,人们坐拥海量的数据和卓越的机器计算能力,关联分析可以提供一系列新视野和有价值的预测,通过找寻新种类数据关联即可解决日常问题。例如,电子医疗记录显示橙汁、阿司匹林组合能够治疗癌症,此时再苦苦追查致病原因还不如经过关联分析得出有效治疗方法更显实用。探求“是什么”而非“为什么”,人们可以更明晰地洞悉世界。

    人们还应该注意到的现象就是,在数据和信息量“爆炸”的知识经济时代即大数据时代,超大型数据库已然遍及社会与生命科学、医学等众多领域。因此,有人提出,今后社会的竞争不是劳动生产率的竞争,而是一场知识生产率的博弈。数据是信息的基础、是知识的源泉,它能够创造极大的价值和利润。未来基于知识的竞争将更加集中表现于数据竞争,而未来的数据竞争又必将是大数据的角逐,大数据的收集、整理、分析和发布能力无疑将成为核心竞争力所在。

    大数据分析蕴含的经济价值已经逐渐开始撼动社会的方方面面,从商业科技到医疗、政府、教育、人文以及其他社会领域。同时,大数据时代向包括统计学在内的领域提出新的挑战,医院管理者、临床专家乃至每位医务工作者都需做好充分准备,积极迎接与适时应对已经或即将发生的变化与变革。, 百拇医药(王吉善 陈晓红 马谢民 李绍刚 马雯 宋景晨)