首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 998 毫秒
1.
李冲 《教育技术导刊》2018,17(10):76-80
基于用户的协同过滤推荐算法是应用范围广且应用效果较好的推荐算法之一。传统单机模式下运行的基于用户的协同过滤推荐算法在面对海量数据时存在严重的性能瓶颈问题,很难满足实际计算需求,而基于MapReduce的并行计算框架为解决该问题提供了新思路。MapReduce是Hadoop开源框架的核心计算编程模型, MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,可将自己的程序运行在分布式系统上。根据基于用户的协同过滤推荐算法特点,提出MapReduce并行化实现方法。实验结果表明,在MapReduce并行计算框架下实现的基于用户的协同过滤推荐算法在算法性能及稳定性方面都取得了理想效果。  相似文献   

2.
为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。  相似文献   

3.
从云计算的定义与云存储的数据模型,GML的空间数据特征等方面探究云计算环境下GML空间数据存储方法.搭建单机与分布式的平台并对两者的存储性能进行对比,得出云计算环境下对GML空间的海量数据存储和访问采用分布式的存储优于采用单机存储的结论.  相似文献   

4.
关联规则算法作为数据挖掘领域的一类重要算法在很多领域都具有较高的实用价值,然而传统的关联挖掘算法难以满足海量数据处理需求。采用相关支持度二维表对经典FP Growth算法进行改进,借助MapReduce编程模型完成算法的并行化改进。实验证明,改进算法相较于经典算法在单机和并行化环境下都具有更低的时间复杂度。  相似文献   

5.
针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。  相似文献   

6.
针对海量或高维数据进行异常检测实验时,往往检测速度较慢、效率较低。针对此问题,设计了一种基于Spark分布式计算的扩展孤立森林异常检测算法改造实验。实验基于Spark框架,分别在数据抽样、训练、预测等阶段设计并行化改造方法,通过与单核条件下的算法对比,验证了并行化方法在保证准确性的前提下执行效率得到大大提高。此实验对加深学生对大数据分布式并行处理知识的理解,引导其对海量数据挖掘相关技术的学习兴趣具有积极作用。  相似文献   

7.
受单机内存和计算能力的限制,串行的排序算法难以对大数据进行高效排序。针对此问题,根据Hadoop的MapReduce框架对常用的内部排序算法进行并行化改进,给出改进算法的基本步骤,描述了Map、Partition和Reduce函数的主要代码。以折半插入排序和堆排序为例,通过实验比较串行算法和改进算法的执行时间,测试改进算法的可扩展性。实验结果表明,改进的并行排序算法具有较高的执行效率和较好的可扩展性。  相似文献   

8.
针对传统关联规则 Apriori 算法难以适应大数据的问题,为提高可信计算平台日志数据分析效率, 提出了一种基于Hadoop的可信计算平台日志分析模型。构建了日志分析模型总体框架,对非结构化原始日志数据进行垂直划分,采用分布式文件存储系统,结合MapReduce编程模式给出一种分布式Apriori并行垂直算法。通过日志挖掘建立用户行为关联规则库,并采用规则匹配实现对用户异常行为的检测。理论分析和实验数据证明,该模型在大数据环境下能够有效提高日志分析效率。  相似文献   

9.
为解决多资源文件共享和语义网格环境下异构资源共享管理问题,提出了一种新的分布式调度算法。该算法采用语义网格的分布式技术,充分利用资源共享模型实现高效的资源调度。仿真实验表明,该算法具有较好的执行效率。与其它算法相比,在相同任务数量时响应更快。  相似文献   

10.
本文探讨了一种跨平台数据访问的方法,用实例说明VC环境下的Socket网络编程、多线程、ODBC应用等编程知识,结果适用于多种系统平台。  相似文献   

11.
在云计算背景下,海量数据信息相互影响,对原本的关联规则形成冗余干扰,导致当前以线性思维为主导的挖掘平台受到冗余干扰的影响,挖掘效率低下。为此,在分析传统方法弊端的基础上,提出了基于分布式思维的数据挖掘平台设计方法。为了解决冗余干扰问题,设计了一种冗余消除算法,以计算区域之间的相似度,形成分布式挖掘关联。试验结果证明,这种分布式数据挖掘平台可达到数据搜索简单、快速,且降低成本的目的。  相似文献   

12.
Biskup首次将学习效应的约束条件引入排序模型,此后带有学习效应的相关排序问题受到了众多学者的关注.大量学者研究了特定条件下带有学习效应的单机排序问题,并给出了多项式算法的证明.对于更为一般条件下的此类问题,通常使用分枝定界法和启发式算法进行求解和对比验证.本文重点介绍分枝定界算法在带有学习效应的单机排序中的应用和几种常用的启发式算法,并给出了一些后续的研究方向.  相似文献   

13.
《商洛学院学报》2015,(2):16-19
电子商务服务的关键是用户的需求,随着电子商务业务的急速扩展,用户数据量的海量增长,针对传统的单机算法很难满足业务需求的现状,提出了基于Spark+MLlib的分布式学习算法,系统在实现过程中进行了分类和预测,并实现了用户标签系统。通过测试,新的算法明显优于单机算法。  相似文献   

14.
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。  相似文献   

15.
互联网的迅速发展产生了各种海量数据,快速有效处理海量数据是云计算的目标。Hadoop作为典型的云计算平台可高效处理海量数据。介绍了Hadoop相关概念,包括HDFS、MapReduce等众多子项目;阐述了Hadoop完全分布式平台搭建,包括环境配置、搭建方法等;通过数据处理实验验证了Hadoop分布式平台的有效性。  相似文献   

16.
机房管理数字化的创新研究与实现   总被引:1,自引:0,他引:1  
分析了计算机实验室传统管理的现状及存在的若干问题,提出计算机实验室利用自己开发的软件进行自动化管理的设计思想,介绍了软件实现的主要技术及系统实现方法.系统采用了分布式多线程技术和数字图像运动检测技术,以及模糊查询算法,解决了多用户并发访问、上下机只需一次刷卡、实验室可视化盗警、火警监控以及实验室评估指标数据智能生成的问题.  相似文献   

17.
针对未来物联网农业产生的海量数据采集、管理和挖掘问题,本文提出了基于Hadoop集群分布式存储与传统MySQL数据库相结合的农业大数据云端系统。通过无线传感器网络构建农作物生长环境参数,如温度、湿度、光照度、土壤湿度及图像视频等数据采集和传输平台,数据最后汇聚到云端通过H adoop分布式计算框架和MapReduce编程模型对农业海量数据进行存储、检索、管理和决策,为农作物生长过程实时监测和最优化生产提供指导,实现方便、快捷、高效和低成本的农业管理系统。  相似文献   

18.
讨论分布式的客户机/服务器通信模式,利用JDK提供的网络编程包、输入输出流及多线程技术,在TCP/IP协议下实现该种模式下的网络通信.  相似文献   

19.
介绍了C#网络编程及C#多线程编程的相关类库,以及网络编程的相关类库,并通过一个大型评论网站的数据抽取为背景,分析了相关的技术难点,分为抽取、处理、存储三个模块,构造了解决方案并将其实现。实验证明,该框架非常有效。  相似文献   

20.
为解决传统电能质量监测系统数据接入可靠性不高,海量数据存储和统计分析能力不足的缺点,采用类数据库的事务处理机制设计数据调度采集过程,搭建基于 Cloudera 大数据平台的电能质量监测分析系统,对数据进行分布式存储、计算分析,实现对 TB 级电能质量数据的监测点指标与运行状态统计,以及对暂态事件的统计聚合分析等功能。实验证明该系统可靠、海量数据统计处理能力强,提高了数据存储可拓展性,为供电方提供了解决海量电能质量数据存储与分析的有效方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号