当前位置: 首页 > 期刊 > 《广东药学院学报》 > 2002年第4期
编号:11013846
大型数据库中关联规则挖掘的相关性控制
http://www.100md.com 《广东药学院学报》 2002年第4期
数据挖掘,,数据挖掘;关联规则;相关性,1背景,2问题的提出,3相关关联规则挖掘,4结语,参考文献
     摘 要 为避免传统的关联规则挖掘产生的负相关关联规则,本文改进了关联规则挖掘方法,在原有规则支持度和置信度的基础上提出了相关度的概念,使得产生的关联规则符合用户的相关度要求。

    关键词 数据挖掘;关联规则;相关性

     1 背景

    随着网络和数据库技术的飞速发展,人们在各种应用系统中积累了丰富的数据,并且不断地有数据更新。快速增长的海量数据收集、存放在大型和大量数据库中,如果没有强有力的数据分析工具,理解它们已经远超出人的能力。结果,大量的数据被描述为“数据丰富,但信息贫乏”。数据挖掘就是从大量数据中提取或发现有用的知识,帮助人们逾越数据和信息之间的鸿沟,帮助人们决策。关联规则挖掘是数据挖掘的一项重要内容。人们已经设计了很多关联规则挖掘的方法。显然,挖掘产生的关联规则的可用程度是我们关心的问题。

    2 问题的提出

    关联规则挖掘发现大量数据中项集之间的关联。然而由传统的关联规则挖掘[1]产生的强关联规则(满足最小支持度和最小置信度阈值)不一定是有价值的,可能产生决策误导。我们考察下面的例子。假定对分析涉及购买家用电脑和VCD播放机的事务感兴趣。在所分析的10000个事务中,6000个事务包含家用电脑,7500个事务包含VCD播放机,4000个事务同时包含家用电脑和VCD播放机。运行传统的关联规则挖掘程序 ......

您现在查看是摘要页,全文长 5310 字符