排序方式: 共有29条查询结果,搜索用时 15 毫秒
11.
Hadoop is a well‐known big data system and a subject covered in many big data courses. This article describes two role play games for teaching the two fundamental components in the Hadoop framework, MapReduce and Hadoop Distributed File System (HDFS). In the games, students form teams and play different roles as a part of a Hadoop cluster. The games are designed to let students collaborate with peers in the same way as MapReduce and HDFS components collaborate to perform computing jobs in a Hadoop cluster. Utilizing a computer communication channel, the games are designed to let students quickly and effectively understand typical MapReduce and HDFS operations. Survey results from students in two big data classes show that the games effectively improve learning outcome in understanding MapReduce and HDFS workflow and the Hadoop framework in general. Students appear more engaged in class activities and communicate with peers more often. 相似文献
12.
王晨阳 《福建工程学院学报》2019,(4):365-370
设计一个迭代的MapReduce并行计算工作流,用于分析快消品电商网站的搜索引擎日志。该工作流根据每次检索在商品品牌字段上的层面搜索结果,挖掘关键字检索和品牌检索热度之间的潜在相关性,为关键字检索计算出其对品牌层面搜索结果集中各品牌的检索热度贡献值,最后对品牌检索热度贡献值列表进行归并计算得到各个品牌的检索热度排名并取Top-N。 相似文献
13.
Hadoop作为著名开源云计算技术近年来得到广泛应用,研究成果快速增长。理论研究主要集中在任务调度、小文件优化、中间数据管理、功能扩展和安全性优化;应用研究主要涉及数据存储、数据分析、数据挖掘、搜索引擎以及信息安全领域。通过分析相关研究成果明确Hadoop近年来国内研究现状。 相似文献
14.
随着互联网应用的广泛普及,互联网承载的网络数据信息呈爆炸式增长,为了实现对海量的、繁杂的、无序的网络信息数据资源进行智能分析、存储和管理,针对网络海量数据信息高度异构的特点,分析了海量网络数据存储系统体系结构,提出一种基于云计算的网络数据的存储管理系统。运行表明,系统能够高效完成海量数据的管理和分析任务,效率高,系统安全可靠、易维护、具有良好的可扩展性。 相似文献
15.
16.
本文结合MapReduce编程模型和小波聚类算法特点,实现基于MapReduce的并行小波聚类算法。用5台电脑和2.75GB数据验证并行小波聚类算法的性能。结果表明并行小波聚类算法具有较好的加速比。 相似文献
17.
银行业在实现业务和数据集中处理的信息化架构后,随着业务的发展,面对数量越来越多、规模越来越大的批处理需求,如何提高计算资源的使用效率和灵活配置资源是银行信息中心不断面对的挑战。以资源和应用虚拟化为核心的云计算架构和技术正在不断发展和成熟,它可以有效地提高信息中心的资源使用,为批处理业务动态配置有效资源。针对以批处理中按照业务类型和处理流程进行资源配置的传统方法,提出了一种将业务流程进行优化分解成为可以进行独立并行处理任务的方法,可以在云计算环境下分组处理具有共同特征的计算和操作任务,实现优化资源调配。通过HadoopMapReduce并行计算架构进行模拟验证,初步实验结果表明了该方法在批处理执行效率、资源使用和灵活性方面的优势,在大量批处理业务领域(金融、证券、电子商务)具有一定的应用和研究价值。 相似文献
18.
云计算环境下大规模数据处理的研究与初步实现 总被引:4,自引:0,他引:4
将云计算技术引入到大规模数据处理过程中,提出在集中或分布管理的大量廉价计算机集群上构建动态的、可扩展的、高性价比的、易使用的高性能计算平台,创建一种基于云计算的大规模数据处理的框架模型。论述在这一环境下的大规模数据处理的方法和应用,通过搭建相应的计算平台,验证计算机集群及框架模型的可行性。 相似文献
19.
针对大数据处理框架MapReduce中的任务调度问题,提出一种基于Markov决策过程(Markov Decision Process,MDP)的任务调度算法,通过状态集来描述集群中节点的负载和作业的数据本地性需求,使用状态转移函数表示调度策略对状态的影响,采用值迭代求解算法求取最优策略,实现集群中节点的最优调度.实验结果表明,该算法能够保证数据本地性的同时,减少作业响应时间,提高系统综合性能. 相似文献
20.
对云计算技术和数据挖掘进行研究,分析Apriori算法,针对其局限性,提出优化方案,引入云计算中MapReduce模型,实现并行化。提出一种基于MapReduce的频繁项集挖掘方法,以提高算法的运行效率,降低算法执行所需的开销。 相似文献