当前位置: 首页 > 期刊 > 《医学信息》 > 2016年第3期
编号:12768624
基于乳腺癌数据的分类方法比较
http://www.100md.com 2016年3月1日 医学信息 2016年第3期
C4.5决策树,朴素贝叶斯,支持向量机,KNN
     摘要:乳腺癌的早期诊断与治疗有着重要的作用,已有多种分类方法应用于此种诊断。本文分别对C4.5决策树算法、朴素贝叶斯算法,支持向量机,KNN的原理进行论述,并基于乳腺癌数据运用上述分类方法进行模型构建,分析比较各模型性能,其中支持向量机性能较优。

    关键词:乳腺癌;分类方法;C4.5决策树;朴素贝叶斯;支持向量机;KNN

    乳腺癌是女性常见的癌症,据统计,乳腺癌是世界上第二大最常见的癌症,也有着较高的致死率。历年来,已有不少分类算法应用于癌症的辅助诊断。C4.5决策树算法,朴素贝叶斯算法,支持向量机算法都属于分类方法中的经典算法,它们基于不同的原理,对乳腺癌数据的分类性能上也存在些微的差异。

    1 方法

    1.1 C4.5分类器 C4.5是一种经典的决策树算法。是昆兰早期ID3算法的扩展版本。ID3主要基于信息增益来进行属性分裂,而C4.5不同于ID3,其属性选择度量基于信息增益率。即

    其中splitInfoA(D)代表由训练数据集D划分成对应于属性A测试的v个输出的v个分区所产生的信息;Grain(A)表示基于按A属性划分的所获得信息增益 ......

您现在查看是摘要页,全文长 4467 字符