共查询到20条相似文献,搜索用时 998 毫秒
1.
基于用户的协同过滤推荐算法是应用范围广且应用效果较好的推荐算法之一。传统单机模式下运行的基于用户的协同过滤推荐算法在面对海量数据时存在严重的性能瓶颈问题,很难满足实际计算需求,而基于MapReduce的并行计算框架为解决该问题提供了新思路。MapReduce是Hadoop开源框架的核心计算编程模型, MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,可将自己的程序运行在分布式系统上。根据基于用户的协同过滤推荐算法特点,提出MapReduce并行化实现方法。实验结果表明,在MapReduce并行计算框架下实现的基于用户的协同过滤推荐算法在算法性能及稳定性方面都取得了理想效果。 相似文献
2.
为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。 相似文献
3.
李玲瑞 《洛阳师范学院学报》2013,(11):64-68
从云计算的定义与云存储的数据模型,GML的空间数据特征等方面探究云计算环境下GML空间数据存储方法.搭建单机与分布式的平台并对两者的存储性能进行对比,得出云计算环境下对GML空间的海量数据存储和访问采用分布式的存储优于采用单机存储的结论. 相似文献
4.
关联规则算法作为数据挖掘领域的一类重要算法在很多领域都具有较高的实用价值,然而传统的关联挖掘算法难以满足海量数据处理需求。采用相关支持度二维表对经典FP Growth算法进行改进,借助MapReduce编程模型完成算法的并行化改进。实验证明,改进算法相较于经典算法在单机和并行化环境下都具有更低的时间复杂度。 相似文献
5.
6.
7.
8.
针对传统关联规则 Apriori 算法难以适应大数据的问题,为提高可信计算平台日志数据分析效率, 提出了一种基于Hadoop的可信计算平台日志分析模型。构建了日志分析模型总体框架,对非结构化原始日志数据进行垂直划分,采用分布式文件存储系统,结合MapReduce编程模式给出一种分布式Apriori并行垂直算法。通过日志挖掘建立用户行为关联规则库,并采用规则匹配实现对用户异常行为的检测。理论分析和实验数据证明,该模型在大数据环境下能够有效提高日志分析效率。 相似文献
9.
为解决多资源文件共享和语义网格环境下异构资源共享管理问题,提出了一种新的分布式调度算法。该算法采用语义网格的分布式技术,充分利用资源共享模型实现高效的资源调度。仿真实验表明,该算法具有较好的执行效率。与其它算法相比,在相同任务数量时响应更快。 相似文献
10.
本文探讨了一种跨平台数据访问的方法,用实例说明VC环境下的Socket网络编程、多线程、ODBC应用等编程知识,结果适用于多种系统平台。 相似文献
11.
在云计算背景下,海量数据信息相互影响,对原本的关联规则形成冗余干扰,导致当前以线性思维为主导的挖掘平台受到冗余干扰的影响,挖掘效率低下。为此,在分析传统方法弊端的基础上,提出了基于分布式思维的数据挖掘平台设计方法。为了解决冗余干扰问题,设计了一种冗余消除算法,以计算区域之间的相似度,形成分布式挖掘关联。试验结果证明,这种分布式数据挖掘平台可达到数据搜索简单、快速,且降低成本的目的。 相似文献
12.
13.
14.
《实验室研究与探索》2015,(11):77-81
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 相似文献
15.
互联网的迅速发展产生了各种海量数据,快速有效处理海量数据是云计算的目标。Hadoop作为典型的云计算平台可高效处理海量数据。介绍了Hadoop相关概念,包括HDFS、MapReduce等众多子项目;阐述了Hadoop完全分布式平台搭建,包括环境配置、搭建方法等;通过数据处理实验验证了Hadoop分布式平台的有效性。 相似文献
16.
机房管理数字化的创新研究与实现 总被引:1,自引:0,他引:1
分析了计算机实验室传统管理的现状及存在的若干问题,提出计算机实验室利用自己开发的软件进行自动化管理的设计思想,介绍了软件实现的主要技术及系统实现方法.系统采用了分布式多线程技术和数字图像运动检测技术,以及模糊查询算法,解决了多用户并发访问、上下机只需一次刷卡、实验室可视化盗警、火警监控以及实验室评估指标数据智能生成的问题. 相似文献
17.
针对未来物联网农业产生的海量数据采集、管理和挖掘问题,本文提出了基于Hadoop集群分布式存储与传统MySQL数据库相结合的农业大数据云端系统。通过无线传感器网络构建农作物生长环境参数,如温度、湿度、光照度、土壤湿度及图像视频等数据采集和传输平台,数据最后汇聚到云端通过H adoop分布式计算框架和MapReduce编程模型对农业海量数据进行存储、检索、管理和决策,为农作物生长过程实时监测和最优化生产提供指导,实现方便、快捷、高效和低成本的农业管理系统。 相似文献
18.
讨论分布式的客户机/服务器通信模式,利用JDK提供的网络编程包、输入输出流及多线程技术,在TCP/IP协议下实现该种模式下的网络通信. 相似文献
19.