基于关联规则的医疗效果评价研究--

基于关联规则的医疗效果评价研究

http://www.100md.com 2011年3月1日焦朋沙郝红红季海娜王国祥

    参见附件。

     基金项目：2009年秦皇岛市科学技术研究与发展指导计划项目：基于数据挖掘对医疗效果评价的研究(200901A329)

    摘要:从依赖于经验的不精确状态发展为定量的精确科学是中医现代化的客观要求。以病人的疾病、年龄、症状、过敏史等数据为研究样本，利用关联规则中的矩阵算法进行挖掘，快速有效地发现了这几个属性间的相关关系，对临床辅助诊疗具有一定的现实意义。

    关键词:数据挖掘；关联规则；矩阵算法；中医学

    中图分类号：O21 中图分类号：A文章编号：1672-3198(2011)05-0011-02

    0 引言

    中医是我国的瑰宝，是我国优秀的民族文化遗产。但到目前为止，我国的中医始终是经验医学，是对传统中医学术思想和临证经验的整理和归纳，具有很强的主观性，缺乏全面系统的整理与统计，这严重束缚了中医的推广和发展。因此，把中医学从依赖于经验的不精确状态发展为定量的精确科学就成为中医现代化的客观要求。中医理论在长期的医疗实践中积累了大量的数据，如何有效利用宝贵的医学信息资源，为疾病的诊断和治疗提供科学的决策以更好的促进医学研究，已成为人们关注的焦点。

    数据挖掘技术是处理海量数据的有效手段，是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。关联规则是数据挖掘中的一个主要研究分支，通过特定算法寻找大量数据中项集间的依赖关系。

    1 关联规则

    关联规则是通过数据找寻两个或几个不相关属性间的相互依赖关系。在临床数据中，有很多这样的联系，如在医学数据库中，对于确诊发病这一事件，各种症状、体征及需要研究的危险因素之间的联系等等。建立这样的关联规则，并验证其在实际数据中的置信度和支持度，可以为我们提供有价值的关联规则，为临床诊断提供帮助。

    1.1 关联规则的定义

    关联规则定义如下：设I{i₁,i₂,…i_n}是n个不同项目的集合,其中的元素称为项(Item)。记D为交易(Transaction)的集合,这里交易T是项的集合,并且TI。对应每一个交易有唯一的标识交易号,记作TID。一个关联规则是形如XY的蕴涵式,这里XI,YI并且X∩YΦ。X称为规则的前提,Y是结果。

    规则XY在交易数据库D中的支持度(Support)是交易集中包含X和Y的交易数与所有交易数之比,记为Support(XY)，即

    Support(XY)｜{T：X∪YT，T∈D}｜/｜D｜(1)

    规则XY在交易集中的可信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比,记为Confidence(XY),即Confidence(XY)｜{T：X∪YT，T∈D}｜/｜{T:XT,T∈D}｜(2)

    若规则XY同时满足给定的最小支持度和最小置信度的阀值，则称XY为强关联规则。

    支持度不小于最小支持度阈值的项集称为频繁项集。

    1.2 Apriori算法

    Apriori算法是现今研究关联规则中最具代表性的方法。Apriori算法是一种逐层搜索迭代方法，由于需要多次扫描数据库并产生庞大的候选项集，使得Apriori算法的效率极低。矩阵算法是对Apriori算法的改进，其通过构造数据矩阵和裁剪数据矩阵以达到查找频繁项集的目的，极大地减少了高次频繁项集的查找时间。

    已知某一数据库包含m个事务，共含有n个项目，矩阵算法的基本步骤：

    (1)扫描数据库得到初始矩阵B_m×n，其中bij

    (2)根据给定的最小支持度计算各项最小要求出现次数，删除矩阵中不符合条件的项目所在的列，得到新矩阵C。

    (3)根据所要求的频繁k-项集，删除不符合条件的行，得到新矩阵D。

    (4)反复循环缩减矩阵，查找频繁项集。

    经过实验证明，矩阵算法在查找高次频繁项集方面具有极其明显的效果，其所用明显比Apriori算法的时间短。

    2 矩阵算法在中医上的应用实例

    目前，关联规则挖掘在中医药数据挖掘领域已经取得了不少的研究成果，但仍处于起步阶段，依旧有许多不足之处待改进。由于中医数据资源的特殊性，使得中医有效完整的数据源较少，且数据源稀松，在较少的中医药数据上进行挖掘，难免有没被发现的遗漏结果。本文利用病人的疾病、年龄、症状、过敏史之间关系的数据进行数据挖掘，以期发现一些潜在、有意义的关联规则。

    李小华，陈倩等人利用Apriori算法对这几个属性之间的相关关系进行了探讨，虽然得到了较好的效果，但是复杂度较高。在本研究中采用关联规则的矩阵算法，直接从频繁3-项集中找寻存在的强关联规则，根据预先设定的最小支持度和可信度产生规则。表1为对应属性的代码。

    表1 数据代码

    算法的具体做法如下：

    (1)扫描医疗数据，将符合标准的病例纳入数据库，每个事务用TID标记，事务由年龄，症状，过敏史等属性组成。

    (2)将数据库中的事务进行代码转换，如表2。

    (3)扫描数据库，得到初始矩阵B。

    表2 事务数据库

    (4)设定最小支持度为20%、最小可信度为75% ......

http://www.100md.com/html/201103/0139/2704.htm

您现在查看是摘要介绍页，详见PDF附件。