首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
有效的挖掘频繁项集是挖掘最大频繁项集的关键步骤.为了克服Apriori算法在挖掘最大频繁项集上的不足,以及FP-Tree存储结构算法多次遍历的缺点,本文引进了新的矩阵技术,减少了FP-Tree遍历次数来挖掘频繁项集,提高了挖掘频繁项集和最大频繁项集效率.并以此提出基于FP-Tree的改进算法FPgrowth*和FPmax*.最后实验结果说明,矩阵技术的引进有效的提高了频繁项集和最大频繁项集挖掘效率.  相似文献   

2.
随着大数据时代的到来,针对Apriori算法和FP Growth算法在挖掘海量规模数据频繁项集时,存在内存不足、计算效率低等问题,提出一种Aggregating_FP算法。该算法结合MapReduce并行计算框架与FP Growth算法,实现频繁项集的并行挖掘,对每个项进行规约合并处理,仅输出包含该项的前K个频繁项集,提高了海量数据决策价值的有效性。在Hadoop分布式计算平台上对多组规模不同的数据集进行测试。实验结果表明,该算法适合大规模数据的分析和处理,具有较好的可扩展性。  相似文献   

3.
数据挖掘是目前数据库界广泛研究的课题,而频繁项集的挖掘是关联规则挖掘、序列模式挖掘、相关分析挖掘、聚类模式挖掘和回归模式挖掘等问题中的关键步骤.该文介绍了频繁项集挖掘算法的相关概念,对目前频繁项集挖掘典型算法进行了分析和比较,并作出了适当的评价.  相似文献   

4.
一种基于二进制编码的频繁项集查找算法   总被引:1,自引:0,他引:1  
在数据挖掘中频繁项集的查找时间是影响挖掘关联规则效率的关键因素,Apriori算法是用来找出频繁项集的典型算法,本文针对Apriori算法需反复扫描数据库、产生大量候选项集的不足,提出一种效率更高的基于二进制编码的频繁项集查找算法,该算法找出频繁项集只需一次数据库扫描,不产生候选项集,与Apriori算法相比,算法效率更高.  相似文献   

5.
Apriori算法是一种有效的关联规则挖掘算法,Apriori算法使用一种称作逐层搜索的迭代方法得到频繁项集,但是它产生大量的候选项集,还需要多次扫描数据库,每次对数据库的重复扫描非常冗长,大量的时间消耗在内存与数据库中的数据交换上。因此笔者引入了一种不产生候选项集的频繁项集挖掘算法——FP-growth算法,并对FP-growth算法的相关性质、实现作以介绍。  相似文献   

6.
随着计算机网络、气象监测和传感器网络等技术的不断发展,如何从数据流中挖掘出有用的信息成为了一个重要的研究内容.本文主要介绍了数据流和其中的频繁项集的概念,分析了数据流中的频繁项集挖掘算法.  相似文献   

7.
本文主要介绍不确定数据及期望支持度等概念,并研究如何在概率框架下挖掘不确定数据库中的频繁项集.  相似文献   

8.
针对传统的数据频繁项集挖掘技术无法快速有效地获取不确定数据中有价值信息的缺点,通过分析不确定数据产生的原因和当前已开展不确定数据挖掘的相关工作,在结合传统频繁项集挖掘算法的基础上,提出需要明确不确定数据特点,运用几种比较高效的新方法来进行不确定数据的频繁项集挖掘,从而为后续做更深入研究奠定扎实基础。  相似文献   

9.
陈建辉 《宜春学院学报》2007,29(4):87-88,122
在对关联规则挖掘算法Apriori进行深入研究的基础上,提出了一种改进的算法SDA算法,在三个方面进行了改进:(1)频繁2-项集生成方法;(2)改进Apriori_gen算法(3)减少事务数据库.在实验数据集上所做的实验结果表明SDA算法是有效的.  相似文献   

10.
提出了一种新的Apriori改进算法,该算法在生成k项频繁集时,不需要多次扫描数据库,有效地减少了对事务数据库的读操作,较经典的Apriori算法有更加优越的性能。  相似文献   

11.
关联规则挖掘用于发现大量数据中项集之间有趣的关联或相关联系,在关联规则挖掘过程中,频繁项集的产生是最重要的步骤。本文提出一种新的频繁项集生成算法,基于项分组的思想,利用矩阵来存储各项的频率信息.只需扫描数据库一次。由于对项进行了分组,充分利用了各个事务的重复信息,因此在项数很多时算法效率仍然较高,实践证明,这是一个高效的频繁项集生成算法。  相似文献   

12.
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联。Apriori算法是关联规则挖掘中的经典算法。然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。提出了一种新的Apriori的改进算法,该算法在生成k(k>1)项频繁集时,不需要重新扫描数据库,只是在生成1项频集时,才需要扫描事务数据库,有效地减少了对事务数据库的读操作,在时间复杂度上较经典的Apriori算法有更加优越的性能。  相似文献   

13.
为提高频繁项集的生成效率,提出一种基于概念格的频繁项集生成算法。首先将事务数据库映射为形式背景,利用概念格构建算法从形式背景中生成概念及其偏序关系,概念内涵表示项集,概念外延表示项集对应的支持度计数。根据概念的外延长度将所有概念划分到不同的层中,层的序号与概念外延长度相同,将层按照序号进行降序排列,从层序号大于等于最小支持度计数的概念中生成频繁项集。在两个人工数据集上的实验结果表明所提算法在时间性能上优于对比算法,最小支持度计数的值越小,所提算法的优势越明显。  相似文献   

14.
挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该算法能快速、直观地求出事务数据库的频繁项集。  相似文献   

15.
FP-growth算法是关联规则挖掘算法中的经典算法,用于挖掘频繁项目集。但它的时间和空间效率还不足够高。提出了一种新的频繁模式树构造方法,性能得以提高。  相似文献   

16.
挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该算法能快速、直观地求出事务数据库的频繁项集。  相似文献   

17.
对多维关联规则挖掘的理论及实现进行了详细的介绍,尤其对基于多维频繁项集的挖掘算法结合实例进行了详尽的阐述和实现。通过选用先进行立方体计算、后进行数据挖掘的OLAM模式,确定了数据挖掘的范围,然后再进行多维关联规则的挖掘。将交互式挖掘嵌入到联机分析系统中来。  相似文献   

18.
针对Apriori算法多次扫描事务数据库且产生庞大的候选集性能瓶颈,本文提出了Apriori算法的优化算法。该算法利用频繁项集产生时需要自身连接的特征,在连接前对频繁项集依据支持度由小到大进行排序,从而优化连接策略,并将其运用到描述事务数据库的布尔矩阵中。经实验证明,该算法随着事务数据库规模的扩大,较Apriori算法有明显的优越性。  相似文献   

19.
基于项目增长法高效求解最大频繁项集   总被引:1,自引:0,他引:1  
针对Apriori算法存在的问题提出了一种改进方法.本算法只需对数据库一次扫描,即可得到所有频繁项集;增强了产生候选项的针对性和有效性;提高了候选项的支持事务计数的效率;在求解最大频繁项集时,由于求解过程中无需用到大量的中间结果,节省了内存空间;通过比较分析,本方法提高了挖掘效率和性能.  相似文献   

20.
关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种关联。频繁项集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。介绍了Apriori算法及其算法改进。该改进算法对剪枝步进行了优化,提高了连接效率,并且不断减小数据库的规模,去掉无效事务,减少了每次扫描数据库所花费的时间,提高了算法效率。经过试验论证,性能比原有算法提高,具有一定的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号