首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种关联。频繁项集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。介绍了Apriori算法及其算法改进。该改进算法对剪枝步进行了优化,提高了连接效率,并且不断减小数据库的规模,去掉无效事务,减少了每次扫描数据库所花费的时间,提高了算法效率。经过试验论证,性能比原有算法提高,具有一定的实用性。  相似文献   

2.
伴随着网络技术的持续发展,新时代的数据多数是非结构化类型的数据信息,其特征向量的维数较高,过多的维数会引发维度灾难,通过引入特征选择的模式对于冗余特征进行检测,数据信息的特征子集能够准确获得,实现降维目标.随后由聚类成员质量以及数据差异入手,总结出适于高维数据信息分层抽样的算法.结果表明,此算法具备良好的聚类优势.此研...  相似文献   

3.
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联。Apriori算法是关联规则挖掘中的经典算法。然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。提出了一种新的Apriori的改进算法,该算法在生成k(k>1)项频繁集时,不需要重新扫描数据库,只是在生成1项频集时,才需要扫描事务数据库,有效地减少了对事务数据库的读操作,在时间复杂度上较经典的Apriori算法有更加优越的性能。  相似文献   

4.
经典的Apriori算法可以搜索出所有的频繁项集,因而被广泛地应用于关联规则数据挖掘系统。研究表明:采用一种辅助分析策略,通过对项集规模的计算简化搜索过程,提高算法效率。  相似文献   

5.
6.
基于Apriori算法的高校教学评价数据挖掘   总被引:2,自引:0,他引:2  
高校在教学和管理中积累了大量的数据,本文把数据挖掘技术中的关联规则挖掘算法Apriori应用于教学评价中,通过对这些数据分析,找到高校教师的教学效果与教师的年龄、职称、学历等相关.  相似文献   

7.
针对Apriori算法的存在产生大量的候选频繁集合的缺点,本文提出了基于加权代价敏感的非频过滤矩阵Apriori算法,通过在FP-tree算法的基础上构造的决策树对应的数据进行代价敏感学习;设定不同的数据的权值,设定加权置信度;非频集过滤矩阵寻找频集,生成强关联规则;构成非频集过滤Apriori算法对应的初始矩阵;构建代价敏感的非频集过滤矩阵等措施提高了算法的挖掘效果。  相似文献   

8.
将多参数随机干扰与Pailler同态加密进行结合,提出一种新的基于隐私保护的面向关联规则的水平分布式挖掘算法,提高了面向关联规则的分布式隐私保护的安全性能。算法中计算候选项集的局部支持度是通过多参数随机干扰求得的,一方面具有不同事物所有相的性质,另外一方面改善了挖掘的准确。通过使用同态加密技术获得的整体支持度,有效控制了计算与通信的成本。分析仿真实验结果可知本文提出的基于隐私保护的面向关联规则的水平分布式挖掘算法性能比单纯以加密为基础的PPDAR算法优良,当最大频繁项集的最大长度与频繁项集的最大长度两者存在一定差距时,本文提出的算法性能优于以加密为基础的EPPDAR算法。  相似文献   

9.
为了提高物联网海量数据的分析处理能力,采用Apriori算法对物联网数据进行规则关联处理。首先对物联网数据进行样本划分,并采用矩阵的方式存储,接着对数据样本进行标准化处理,并得到模糊相似矩阵,最后采用Apriori算法根据频繁项集进行规则关联。本文采用基于物联网的数字图书馆作为仿真对象,对用户行为数据进行数据挖掘,实验证明,该方法完成的物联网数据规则关联,置信度高,具有一定的应用价值。  相似文献   

10.
针对关联规则挖掘算法中存在事务之间的某种关联性的数据无法区分的问题,本文将蚁群算法和加权概念引入到挖掘算法中,首先分析了目前加权关联规则挖掘算法的不足,提出了将蚁群算法引入到加权关联规则中,并对蚁群算法中的应度函数,状态转移规则和信息素更新的改进,并采用矩形向量作为事务存储结构进行连接和剪枝。仿真实验中与基本Apriori算法进行比较,并通过将本校的课程资源作为挖掘对象,结果说明本文算法具有良好的挖掘效果。  相似文献   

11.
在大型数据集进行数据挖掘时,现有算法仍需要和外存多次交换数据才能完成挖掘任务。针对此问题提出了一种新的自适应的混合压缩算法:AHC-DM算法。该算法主要通过在垂直事务标识向量的基础上进行比特位压缩来节省内存空间。其结果是当数据集事务差成脉冲型出现时,对数据集有较好的压缩比率;也同时能自动适应数据的稠密和稀疏。  相似文献   

12.
关联规则是数据挖掘的重要研究方向之一,Apriori算法是利用关联规则进行数据挖掘中的一个最经典的算法。通过对Apriori算法进行研究分析,发现该算法具有产生大量候选项集和多次扫描数据库的缺点。提出了一种基于矩阵按位存储的改进型Apriori算法,该算法将数据库中的数据读入内存,用矩阵按位存储数据,使用按位运算计算项集的支持数,提高了支持数计数的效率,从而提高了关联规则挖掘的速度和效率。  相似文献   

13.
<正>大数据时代的到来,给人们提供了海量丰富的数据信息,极大地实现了信息地位的平等。大数据在诸多领域都有广泛的应用,如信息检索、个性化推荐、刑事侦缉等。大数据的优势特点是非常突出的,但大数据的使用也面临一些实际的困难,其根本原因在于大数据所带来的信息冗余。  相似文献   

14.
如何进行云计算下的数据挖掘一直以来都是研究的重点,本文针对传统挖掘算法K-meas的不足,提出基于数据采样和分布密度的改进方法来获取算法的中心点,在聚类中构造函数提高了聚类效果,并对云计算下的Map/Reduce模型进行了函数改进,仿真实验通过对不同的数据集进行实验,从聚类分析比较,系统运行时间,加速比等方面说明了本文的算法适合在云计算下的数据挖掘具有一定的优越性。  相似文献   

15.
叶萌 《黑龙江科技信息》2011,(30):40+39-40,39
关联规则是数据挖掘领域的一个重要分支,它反映了一个事物与其他事物之间互相依赖的关系。提出了一种简易而有效的频繁模式挖掘算法作为基础,利用频繁模式树对大型原始事务数据库进行压缩存储,并且给出了具体实现算法。与传统的算法比较,避免了反复进行候选集的生成与测试,大大提高了算法效率。  相似文献   

16.
针对K-means聚类算法中的k值确定给聚类算法效果带来不确定性的问题,本文通过引入多层变量加权概念,提高聚类效果的收敛性,引入改进的非加权组平均法和最大最小距离算法有效的解决k值确定问题,引入Max-Entropy算法解决分布簇内节点分布不均导致的计算问题。仿真实验中,将本文算法的改进的效果进行研究,并结合云计算环境下通过使用本文算法在挖掘的加速比,花费时间上都取得了比较好的效果。  相似文献   

17.
目前大多都是针对两种类型数据发现对照模式来获取相关信息,在多类数据中发现对照模式进行数据挖掘还具有很大的挑战性。现有的关联规则挖掘技术的瓶颈在于需要产生大量的规则,其中有很多都是冗余规则,而已存在的非冗余规则挖掘算法虽然去掉了冗余规则,但还是有很多规则对于特定的应用领域兴趣度太低或不感兴趣,因此给出了一种有效的多类医疗数据挖掘算法。该算法基于统计方法定义了诱因模式和安全模式,实现了在多类医疗数据中发现这两类模式,并在仿真实验中给出了仿真医疗数据清晰直观的因果关系图,而根据新算法产生的规则得出的分类器也验证了新算法的高效性和实用性,且新算法产生的规则提供了精确而且非常有用的信息,可被实际应用在医疗研究以及其它领域中。  相似文献   

18.
隐私数据挖掘是数据挖掘的一个重要研究方向,它旨在研究在数据挖掘过程中如何保护私有的和敏感的数据不被泄露。文章阐述几种常用的隐私数据挖掘算法,分析它们的技术特点,文末对几种隐私数据挖掘技术进行总结与展望。  相似文献   

19.
<正>用户画像(User Profile)能够完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础。考虑到设计师岗位的多样化,包含从事结构设计工作、原理设计工作、仿真设计工作、制图工作等岗位,而机械制图工作又包括二维制图、三维制图、工业设计制图等。针对机械制图工作,不同设计师设计方向不一样,能力不一样。为了更清楚各个设计师的能力以及设计师团队整体能力情况包括人员结构合理性等,提出构建设计师用户画像系统,从业务上针对设计师制图工作的人群进行画像,对设计师综合能力进行不同等级划分,从企业角度和设计师个人角度深入认识设计人员结构合理性和任务匹配合理性。  相似文献   

20.
陈静 《大众科技》2012,(6):46-47
关联规则的提取是数据挖掘中的重要研究内容,对关联规则提取中的Apriori算法进行了分析与研究,针对该算法的运算效率不高,对该算法进行了改进,提出了Apriori改进算法.Apriori改进算法采用二进制数据垂直表示方法,只用扫描事务数据库一次得到一阶大项集的二进制数据垂直表示.K阶候选项集的操作只要基于这个一阶大项集,而不需重复扫描数据库,从而提高了挖掘算法的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号