首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据挖掘在各行业发挥着越来越重要的作用,随着数据挖掘中数据量的高速增长以及大规模计算在数据挖掘中的应用。挖掘算法处理海量数据的能力问题日益突出.通过对常见的数据挖掘分类并行算法进行研究探讨,分析了C4.5算法,SLIQ算法,SPRINT算法的优缺点,最后指出研究并行算法是解决处理海量数据能力的有效途径.  相似文献   

2.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。  相似文献   

3.
随着信息技术的发展,大量的数据不断被收集和存储,对数据的挖掘规模越来越大,传统的数据挖掘已经无法解决海量数据挖掘问题。网格技术的发展,使得广域分布的海量数据的挖掘问题得到解决。文章根据现实中海量数据挖掘的需求和网格的本质,把并行关联规则挖掘算法应用于网格数据挖掘中,并建立了一个并行数据挖掘模型,验证了并行数据挖掘系统在网格环境的可行性与合理性。  相似文献   

4.
针对K均值聚类算法存在的问题,提出了一种基于改进粒子群的加速K均值聚类入侵检测算法,通过实验分析和比较,证明改进算法有效地提高了入侵检测数据处理速度。  相似文献   

5.
在科技高速发展的今天,海量数据处理问题受到人们广泛关注。将K means聚类算法与Hadoop平台相结合是处理海量数据问题的一条可靠途径。简单介绍Hadoop和K means算法以及K means聚类算法MapReduce并行化实现,并阐述目前Hadoop平台下K means算法的几种优化方式,最后提出研究展望。  相似文献   

6.
针对Web网络通讯过程中存储的海量数据,运用新颖的数据挖掘技术或方法,发掘出数据中隐含的规律知识.为此提出关于web网络信息挖掘系统体系结构.阐述数据方块法、属性导向归纳法在数据预处理中的应用,深入探讨粗集属性约简算法、K—means聚类分析算法等在web网络信息挖掘系统体系的应用,提出的系统体系结构可为挖掘系统的实际研发提供有效指导.  相似文献   

7.
针对数据挖掘实践课程现状和实际教学效果,结合数据挖掘实践课程特点,在分析总结多种数据挖掘工具的基础上,设计了一种基于Hadoop的数据挖掘实践平台.架构在分布式计算平台Hadoop上的数据挖掘实践平台,克服了传统数据挖掘工具的种种问题,其能够支持数据挖掘的标准流程,处理TB级的海量数据用于实践挖掘,为数据挖掘基础实践提供了丰富的数据挖掘算法用于建模.同时,基于Hadoop的数据挖掘实践平台提供了灵活多样的应用开发接口,能够支持第三方软件商集成开发,快速构建大型海量数据挖掘的应用系统,完成综合数据挖掘应用的二次开发.基于Hadoop的数据挖掘实践平台,为数据挖掘实践与科研提供了海量数据处理能力的数据挖掘平台,激励学生以竞赛模式学习和完成数据挖掘实践,从而促进了学生创新实践能力的培养.  相似文献   

8.
LBS的广泛应用带来海量的位置信息数据,如何充分利用这些数据并从中挖掘出隐含其中的知识为决策提供数据支持,已经成为空间数据挖掘技术的重要内容。本文重点研究了空间数据挖掘中的聚类分析算法,以此提出了基于LBS的定位系统。该系统分析了DBSCAN和K-means算法,并提出了一种改进算法,实现异常位置检测。基于上述研究设计实现了基于LBS的定位系统,实现了实时定位查询,时空查询,异常轨迹分析等功能。  相似文献   

9.
基于层次的模糊K均值聚类算法研究   总被引:1,自引:0,他引:1  
通过对K均值聚类算法的研究,本文提出了一种基于层次聚类与模糊聚类思想的K均值聚类算法。算法首先使用层次方法对数据进行初始聚类,然后用得到的聚类数作为模糊K均值聚类中的K值,对聚类进行修正。最后通过实验,验证了该算法不需要人为假设聚类算法中的K值,而且引入了模糊隶属关系使类别的划分更接近于事实,从而证明了该算法的有效性。  相似文献   

10.
在K均值算法基础上,提出了改进的K均值算法(K+均值)。此方法计算每个数据对象所在区域的密度选择相互距离,最远的k个处于高密度区域的点作为初始聚类中心。将K均值算法和K+均值算法分别应用于入侵检测,试验结果表明:K+均值算法能够避免K均值算法固有的缺点,并且有比较高的检测性能。  相似文献   

11.
针对海量或高维数据进行异常检测实验时,往往检测速度较慢、效率较低。针对此问题,设计了一种基于Spark分布式计算的扩展孤立森林异常检测算法改造实验。实验基于Spark框架,分别在数据抽样、训练、预测等阶段设计并行化改造方法,通过与单核条件下的算法对比,验证了并行化方法在保证准确性的前提下执行效率得到大大提高。此实验对加深学生对大数据分布式并行处理知识的理解,引导其对海量数据挖掘相关技术的学习兴趣具有积极作用。  相似文献   

12.
数据采集手段的丰富,使获取、保存大量数据变得容易,从海量数据中提取有用的知识和信息是数据挖掘的主要任务,关联规则是数据挖掘领域的一个重要分支。本文介绍了一种改进关联规则快速算法,并加入相关性分析以过滤掉无意义强关联规则以得到更为准确的信息。  相似文献   

13.
发现关联规则是数据挖掘技术的重要任务之一。之前提出的绝大多数算法需要多次遍历数据库才能产生频繁项集,造成巨大的CPU和内存开销。根据网上交易数据海量的特点,提出了一种基于频繁模式增长(FP-growth)的并行算法。该算法可以在不产生候选集的基础上并行的挖掘海量数据。试验证明该算法可以缓解了项目数量巨大而内存不足的矛盾,减少了算法的执行时间。利用该算法对网上交易进行关联规则挖掘,发现了有价值的决策支持信息。  相似文献   

14.
针对数据挖掘中高维数据多分类问题,提出了一种基于二分K均值的SVM决策树的高维数据分类方法.该方法先利用二分K-均值将高维数据基本聚为k类,再构造SVM多分类模型,利用它对各类进行细分.本文给出了该模型的构造及应用方法,并在标准数据集上验证了该方法的有效性.  相似文献   

15.
因特网上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XMLJ、AVA的新型数据挖掘技术。  相似文献   

16.
随着大数据时代的到来,针对Apriori算法和FP Growth算法在挖掘海量规模数据频繁项集时,存在内存不足、计算效率低等问题,提出一种Aggregating_FP算法。该算法结合MapReduce并行计算框架与FP Growth算法,实现频繁项集的并行挖掘,对每个项进行规约合并处理,仅输出包含该项的前K个频繁项集,提高了海量数据决策价值的有效性。在Hadoop分布式计算平台上对多组规模不同的数据集进行测试。实验结果表明,该算法适合大规模数据的分析和处理,具有较好的可扩展性。  相似文献   

17.
探讨了在空间数据挖掘系统中采用多小波算法处理目标空间海量数据的方法,结合空间数据挖掘系统的体系结构,给出了基于多小波变换的空间数据挖掘的结构模型,探讨了多小波的性质、平衡多小波的构造、空间数据发掘的过程。  相似文献   

18.
数据挖掘技术主要用于对数据库中的海量数据进行有效的处理。为了进一步提高数据挖掘算法的效率,统计学中的抽样思想被引入到数据挖掘中。首先对数据挖掘和抽样调查做了简要概述,阐述了抽样在数据挖掘中的重要作用;然后进一步分析抽样在不同领域数据挖掘中的应用,并对其在数据挖掘应用中存在的问题进行了讨论。  相似文献   

19.
在研究和总结基础上提出一种基于海量数据的螺旋循环式DM原型模型,并介绍了现有数据仓库概念,数据挖掘技术和数据挖掘处理模型.  相似文献   

20.
基于Web的数据挖掘方法的研究及实现   总被引:2,自引:0,他引:2  
Web上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XML、JAVA的新型数据挖掘技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号