首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
高校图书馆数据日益增加,为了更好地利用海量图书馆数据,加强图书馆自身建设、满足读者需求,基于山东科技大学图书馆数据,利用FP-Growth算法进行学科间关联分析、借阅图书分布分析、借阅量分析及图书流通量分析,并提出相应对策。结果表明,基于FP-Growth算法对图书馆数据进行关联分析,可以及时发现隐藏的规则和信息,为图书馆建设提供决策支持,提高图书利用率,更好地满足读者需求。  相似文献   

2.
随着大数据时代的到来,针对Apriori算法和FP Growth算法在挖掘海量规模数据频繁项集时,存在内存不足、计算效率低等问题,提出一种Aggregating_FP算法。该算法结合MapReduce并行计算框架与FP Growth算法,实现频繁项集的并行挖掘,对每个项进行规约合并处理,仅输出包含该项的前K个频繁项集,提高了海量数据决策价值的有效性。在Hadoop分布式计算平台上对多组规模不同的数据集进行测试。实验结果表明,该算法适合大规模数据的分析和处理,具有较好的可扩展性。  相似文献   

3.
传统的医学文献检索算法FP-Growth算法存在效率低下、内存溢出等问题,据此提出了一个改进的FP-Growth算法.首先将数据集平均分块,以并行的方式构建FP-Tree树,以减少内存负担,再以粒子群算法优化FP-Growth的FP-Tree树迭代过程,并优化并发过程.经验证,改进后的算法能提高内存的使用率与算法的运行效率.  相似文献   

4.
潘磊 《教育技术导刊》2009,19(10):152-155
为了提高电力系统中故障预测效率及便捷性,提出一种基于FP-Growth算法的电力系统故障预测方法,无需先验知识及人工标注,便可从海量历史日志数据中快速提取出故障信息模式,并基于实时日志数据对未来可能发送的系统故障进行预测。该方法首先根据电力系统不同类型的日志特征对原始数据进行预处理,然后基于FP-Growth算法挖掘日志中与故障事件相关的关联规则,并使用关联规则进行故障匹配,从而达到预测效果。算法经过真实电力系统日志数据集测试,结果表明该故障预测方法平均准确率为89.5%,平均召回率为79.8%,且执行效率较高,节省了业务人员50%以上的时间。  相似文献   

5.
在科技高速发展的今天,海量数据处理问题受到人们广泛关注。将K means聚类算法与Hadoop平台相结合是处理海量数据问题的一条可靠途径。简单介绍Hadoop和K means算法以及K means聚类算法MapReduce并行化实现,并阐述目前Hadoop平台下K means算法的几种优化方式,最后提出研究展望。  相似文献   

6.
面对海量数据的信息系统,通过引入MapReduce模型,重构Map和Reduce函数,本文提出了基于云计算的属性重要度约简算法,较好地实现了海量数据集中的属性约简,为属性约简研究提供了新思路.最后,实例分析表明,该约简算法是有效可行的.  相似文献   

7.
随着网络技术飞速发展,海量数据已随处可见并且不断增长,现有的查询处理技术在应用于海量数据时已经显现出种种不足。以海量数据所处的复杂环境为切入点,从各个不同的角度出发研究分析了已有的查询处理方法,在此基础之上提出了使用海量数据的改进算法,改进的Limits算法有利于海量数据查询性能的提高。  相似文献   

8.
关联规则是数据挖掘的重要内容之一.Apriori算法是关联规则挖掘的经典算法,本文对Apriori算法和改进后的FP-Growth算法进行了深入的研究,并以实际的案例进行了算法解析,通过对两种算法的比较与分析,选择FP-Growth算法应用到毕业生信息管理系统中,从大量的毕业生信息出发,找出就业信息与教育信息之间的关系,从而为决策者提供指导或数据支持,指导目前的专业建设、课程改革,促进学校的教学改革,提高人才培养质量.  相似文献   

9.
旅行时间是交通系统中一个重要的测量指标,精确的旅行时间预测对智能交通系统和先进交通信息系统发展有重要意义。数据采集技术为旅行时间计算提供了海量实时交通数据,如何利用海量实时交通数据精确且快速预测旅行时间成为当前旅行时间研究中的一个热点问题。基于海量的车牌识别数据,在Hadoop框架下,用MapReduce编程模型,应用卡尔曼滤波法实现对路段旅行时间的预测,和其它算法对比,该算法预测准确性有显著提高。  相似文献   

10.
随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。  相似文献   

11.
As a parallel programming model, Map-Reduce is used for distributed computing of massive data. Map-Reduce model encapsulates the details of parallel implementation, fault-tolerant processing, local computing and load balancing, etc., provides a simple but powerful interface. In case of having no clear idea about distributed and parallel programming, this interface can be utilized to save development time. This paper introduces the method of using Hadoop, the open-source Map-Reduce software platform, to combine PCs to carry out scalable parallel computing. Our experiment using 12 PCs to compute N-body problem based on Map-Reduce model shows that we can get a 9.8x speedup ratio. This work indicates that the Map-Reduce can be applied in scalable parallel computing.  相似文献   

12.
人们已经提出了许多用于高效地发现大规模数据库中关联规则的算法,但它们大多会产生大量的关联规则,这些规则中包含很多用户不感兴趣的垃圾规则,且只能发现正项的关联规则。因此,引入兴趣度的概念,对FP-Growth算法进行改造,发现一些用户真正感兴趣的有用关联规则,这些规则允许包含负项规则。  相似文献   

13.
A cluster analyzing algorithm based on grids is introduced in this paper,which is applied to data mining in the city emergency system. In the previous applications, data mining was based on the method of analyzing points and lines, which was not efficient enough in dealing with the geographic information in units of police areas. The proposed algorithm maps an event set stored as a point set to a grid unit set, utilizes the cluster algorithm based on grids to find out all the clusters, and shows the results in the method of visualization. The algorithm performs well when dealing with high dimensional data sets and immense data. It is suitable for the data mining based on geographic information system and is supportive to decision-makings in the city emergency system.  相似文献   

14.
在概念层次里进行关联规则的挖掘,并考虑到用户感知与主观判断所产生的认知不确定性;结合模糊分割法与FP-Growth方法,应用于概念层次架构中找出关联规则方法,主要分为两个阶段:层级架构的顺序将数据项做抽象化,找出高频模糊格;由高频模糊格来产生多层次模糊关规则。最后通过比较验证所提方法可提高算法的执行效率、缩短计算时间。  相似文献   

15.
How to quickly and accurately detect new topics from massive data online becomes a main problem of public opinion monitoring in cyberspace. This paperpresents a new event detection method for the current new event detection system, based on sorted subtopic matching algorithm and constructs the entire design framework. In this p~per, the subtopics contained in old topics (or news stories) are sorted in descending order according to their importance to the topic(or news stories), and form a sorted subtopic sequence. In the process of subtopic matching, subtopic scoring matrix is used to determine whether a new story is reporting a new event. Experimental results show that the sorted subtopic matching model improved the accuracy and effectiveness ofthenew event detection system in cyberspace.  相似文献   

16.
从网络运营商所面临的问题人手,以综合网络业务资源管理平台的建设为主要的研究对象,深入分析构建海量业务资源管理平台的现状、问题、难点以及重点.阐述了平台建设的总体思路,明确了系统的总体技术框架和业务框架,同时针对该系统建设过程中的重要内容进行了设计,解决了资源管理平台建设海量数据处理引擎、资源快速访问、数据准确性管理等难点.  相似文献   

17.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

18.
英语阅读的过程就是一个信息处理的过程,在面对大量的信息时,读者该如何选择和联系有用的信息,从而得出文章的主题和作者所要表达的思想呢?本篇文章将从主位及其推进模式出发.探讨其在英语阅读中能起到什么样的作用,以期得到阅读教学的发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号