共查询到20条相似文献,搜索用时 15 毫秒
1.
Apriori算法是关联规则挖掘中的经典算法。在Apriori算法中,使用频繁项集的先验知识,逐层搜索的迭代方法,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找每个Lk都需要扫描一次数据库。算法的效率随着数据量的增大,频繁项集的增多,算法的效率就非常的低,本文通过对Apriori算法分析,应用散列、事务压缩、划分、抽样等方法,最大可能的减少数据库扫描的次数,快速发现频繁项集,提高Apriori算法的效率。 相似文献
2.
经过分析关联规则中Apriori算法存在的不足,为减少对事务数据库的扫描次数,缩减产生频繁项集的时间,列出两种基于哈希表的计算项集支持计数的方法以及利用哈希表来进行项集的地址定位的方法,使得生成频繁项集的效率有所提高。 相似文献
3.
针对传统的Apriori算法需要产生大量的候选项目集和多次扫描数据库的不足,提出了一种新的基于内积运算的频繁项集生成算法。该算法对事务数据库布尔化表示,通过内积运算搜寻矩阵行向量直接生成频繁项集,打破了频繁项集必须从低次到高次的局限,当频繁项集可能是大项集时,大大提高了搜索效率。 相似文献
4.
在大数据背景下进行数据挖掘越来越受到重视,针对Apriori挖掘算法中存在消耗时间长,算法效率低的特点,采用添加数据库、改进频繁1-项集,改进频繁2-项集和引入动态存储空间等措施,提高Apriori算法的性能,仿真实验中,本文算法在时间消耗、CPU耗能和挖掘效果上都取得了良好的效果。 相似文献
5.
6.
Apriori算法是关联规则挖掘中的经典算法。通过对Apriori算法的基本思想和性能的研究分析,提出了一种基于垂直事务列表的树形结构的挖掘算法,减少了候选频繁项集的数量,提高了挖掘算法的效率。实验结果表明新算法具有良好的性能。 相似文献
7.
8.
本文提出了一种改进的Apriori算法。解决经典的Apriori算法的瓶颈,通过对数据库中小于最小支持度的项集进行剪枝,减少数据库中的事物数量来提高下次扫描的效率,同时改变产生候选集的函数,生成连续的访问页面。改进算法提高了网上学习模型的智能性。 相似文献
9.
关联规则在数据挖掘中扮演着十分重要的角色,而Apriori算法和FP-growth算法是当前关联规则中两大主要算法。其中Apriori算法的主要开支是产生大量候选项集和重复遍历数据库,FP-growth算法的主要开支是重复创建和遍历条件FP树。在介绍两种算法基础上,提出了一种新的算法,使Apriori算法产生的候选项集不是查找数据库而是查找FP-tree来确定是否为频繁项集。实际测试表明,在一定的条件下,新算法的效率高于原先的两种算法。 相似文献
10.
在研究和剖析关联Apriori算法的基础上,针对Apriori算法中的瓶颈,提出了一种优化算法,从算法的计数、连接和减枝等方面进行优化,快速搜索频繁项集,从而提升算法效率. 相似文献
11.
12.
从Apriori算法可以看出,每次对数据库的扫描时,有些事务已经对频繁项目集的生成不产生作用。减少数据库内与进一步挖掘任务不相关的事务对于算法来说很有必要。本文不同于传统的事务压缩方法,设计了新的基于数据集削减法的Apriori算法。 相似文献
13.
Web页面包含复杂的、无结构的、动态的数据信息,包含大量的、不完全的、有噪声的、模糊的、随机的数据,干扰了正常的提取过程.为此提出一种改进Apriori算法的海量Web数据高效挖掘方法.在自然连接产生候选集以前先进行一个修剪过程,减少参加连接的项集数量,因而减小生成的候选项集规模,减少了循环迭代次数和运行时间,同时在连接判断步骤中减少多余的判断次数.实验表明,该方法能够迅速排除冗余数据干扰,提高了挖掘的准确性. 相似文献
14.
15.
16.
17.
在挖掘关联规则的过程中,关键步骤是产生频繁项集。文中利用逻辑与运算并建立频繁项集支持矩阵,提出一种有效的频繁项集挖掘算法—LA。算法利用逻辑与运算挖掘频繁项集,不产生候选项集,且只需扫描数据库一次,所以此算法是非常有效的。 相似文献
18.
关联规则是数据挖掘的重要研究方向之一,Apriori算法是利用关联规则进行数据挖掘中的一个最经典的算法。通过对Apriori算法进行研究分析,发现该算法具有产生大量候选项集和多次扫描数据库的缺点。提出了一种基于矩阵按位存储的改进型Apriori算法,该算法将数据库中的数据读入内存,用矩阵按位存储数据,使用按位运算计算项集的支持数,提高了支持数计数的效率,从而提高了关联规则挖掘的速度和效率。 相似文献
19.
20.
研究频繁项集模式挖掘优化问题。传统的挖掘算法常产生大规模的候选项集,并且反复扫描数据库,导致频繁项集挖掘时间过长,空间效率太低。为了改进频繁项集挖掘时时间与空间效率低的问题,提出一种高效频繁项集挖掘算法CPT-Mine。此算法利用编码模式树存储事务数据库中的频繁项集信息,构建FP数组,加快产生频繁项集,引入CPT-Mine算法,快速地挖掘数据库中所包含的频繁项集,无需递归构造条件模式树,只需两次扫描数据库即可生成所有频繁项集。最后的实验证明了该算法能缩短挖掘时间3~10 s,空间效率提高43%。 相似文献