首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
远程教育资源具有数据量大,增长迅速的特点,对这些海量数据资源进行低成本存储和基于内容的高效检索,是远程教育云平台建设面临的一大难题。本文基于Hadoop设计了一套对远程教育海量资源进行存储和检索的方法,解决了这个难题。  相似文献   

2.
开发海量数据处理系统时存在技术框架选择不确定问题。从理论及应用角度对两种主流的海量数据处理架构MPP和Hadoop进行对比,分析各自技术特点,阐述其与传统数据处理的优势。分析结果表明,Hadoop在存储数据规模上可轻松支持PB级别,而MPP架构大多只支持TB级别;Hadoop对海量半结构化、非结构化数据存储和处理有一定优势,但在处理速度和易用性上不及MPP;在结构化数据处理、响应性能和衍生工具等方面MPP 则占优,适用于查询业务场景较多项目。通过分析两大框架底层核心技术以及归纳优缺点,为企业相关应用的技术选型提供参考。  相似文献   

3.
物联网中的数据具有海量、异构性的特点,数据存储关系到数据共享、数据查询等后续工作,对存储方式的研究一直备受关注。在介绍存储策略和查询技术的基础上,着重探讨查询算法,为海量异构传感采样数据存储提供可参考的解决方案。  相似文献   

4.
为了解决海量数据高并发系统在访问过程中存在的问题,本文在现有通用解决方案的基础上,提出了一套从系统架构到软件设计的全面优化方案.该方案选取铁路电子票务系统为分析对象,针对系统访问高峰时期出现的各种问题,分析其产生原因,提出相应的解决方案,从而为其他各种海量数据高并发访问应用提供一种具有良好参考价值的示范.  相似文献   

5.
针对铁路机车海量GIS信息数据及其对铁路调度几种控制系统带来的数据存取问题,采用Hadoop HDFS进行海量GIS数据存取,提出HBase的数据表结构设计及查询方法以及采用MapReduce进行数据分析的分布式处理方法,明确了基于MapReduce对铁路机车GIS信息进行地图匹配以及安全距离计算的方法。试验结果表明:采用Hadoop HDFS进行数据存取具有较高的效率,在需要大量数据存取的情况下,采用MapReduce进行分布式数据分析效率更高,扩展性更好。  相似文献   

6.
首先介绍了WinPcap技术,然后提出了基于WinPcap海量数据接收与保存模型,接着重点论述了基于WinPcap海量数据接收与保存的实现,并实例讲解了基于WinPcap函数的用法,最后对其实现过程进行了总结。  相似文献   

7.
IDL是第四代面向对象的可视化数据分析语言,它完全面向矩阵进行计算,克服了传统软件基于像素处理数据比较慢的缺点,加快了数据处理速度,在卫星数据的同步处理方面以及海量遥感影像的实时处理、分析及应用中有着很大优势。  相似文献   

8.
本文针对敦煌石窟数字化海量数据在实际工作数据传输过程中出现的问题,认为海量数据无差错传输技术,在敦煌石窟数字化过程中是非常重要的一项技术。敦煌石窟海量数据无差错传输系统的设计与开发,为了开发出实用性强的软件,首先针对敦煌石窟壁画数字化工作流程、分析摄影采集、图像处理和数据存储各阶段的特点,提出了敦煌石窟海量数据无差错传输系统的需求;其次,设计了敦煌石窟海量数据传输校验方案,针对敦煌石窟壁画数字化工作流程提出了层级式校验,依据该校验思想,设计了数据校验的整体框架并做了优化,最后设计出数据传输校验的详细模型,确保了数据传输的完整性;最后,基于上述方案,设计并实现了敦煌石窟海量数据无差错传输系统,利用 VisualStudio2010开发平台、C++程序开发语言完成系统的开发。此系统已在敦煌壁画数字化工作中实际应用,效果良好。  相似文献   

9.
随着互联网与信息化的普及,数据数量、数据来源与数据格式的复杂性愈加突出。互联网、传感器、人工收集等多种来源产生了海量异构数据,为解决多源异构数据处理问题,设计一种将海量异构数据自动化集成到同一数据仓库的方法。通过建立元数据模型(以数据集为单位)将来源数据按数据集分类,映射整合到数据仓库中,通过CRF序列标注模型、Skip-Gram神经网络、TF*IDF等机器学习技术,解决了数据仓库集成中语义映射的难题,实现了海量多源异构数据的自动化入库,为之后的数据分析挖掘提供了良好基础。  相似文献   

10.
针对传统装箱算法在处理海量数据时所存在的的运行效率与空间利用率低的问题,在深入研究已有装箱算法的基础上,在分布式系统中定义一种可变大小的箱子,结合动态和静态算法的优势,提出基于MapReduce的动态装箱算法。实验结果表明,针对海量动态数据,运用基于MapReduce的动态装箱算法,结果接近最优解,同时具有很高的处理效率。  相似文献   

11.
数据布局策略作为数据管理的重要方面,对研究多数据中心环境下的数据布局有着重要意义。针对多数据中心的数据检索、更新和全局负载均衡3个目标对数据布局方案进行求解和优化。提出一种改进的多目标遗传算法,该算法以降低多数据中心的数据检索和更新代价作为优化目标,并结合负载均衡作为约束条件。实验显示该算法不仅在数据布局方面有良好性能,而且能够获得较高的资源利用率。  相似文献   

12.
面向金融领域的海量数据综合处理服务平台融合了分布式云计算技术、SOA技术、ETL技术、作业调度技术,以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,具有统一、高效、可拓展性。该服务平台支持灵活构建面向数据仓库、数据集市、数据集文件进行海量数据的处理、加工和交换,实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性,是一个基础服务框架的服务平台。  相似文献   

13.
解决海量数据查询分析系统存在的数据量与查询速度,数据访问局部性与数据无限制性需求间的矛盾,提出一种备份和恢复策略,备份加载前的数据,并将业务数据的时间属性与备份任务关联,与基于DBMS的备份和恢复方式相比,降低了海量数据对磁盘阵列空间和备份操作对系统资源的占用,增加了恢复数据的可操作粒度和配置灵活性。  相似文献   

14.
海量数据的MapReduce相似度检测   总被引:1,自引:0,他引:1  
针对当前海量数据的相似重复问题,提出了MapReduce下通过SimHash算法检测相似文档的方法:即首先将存储在分布式文件系统的海量文档集进行分类,然后进行特征提取,由SimHash算法生成SimHash指纹和生成Sequence File;最后,计算相似度产生检测结果;通过实验测试可知,提出的检测方法和设计的相似度算法能很好适应海量数据相似检测,并能有效地提高工作效率。  相似文献   

15.
基于Hadoop技术开发了数字化校园海量数据存储系统,提出了基于Hadoop的大数据存储模型。将整个系统设计为系统管理、业务应用、数据处理、数据采集等4个大模块,采用开源分布式数据处理框架,高效处理海量数据。系统具有可伸缩性、高可靠性、低成本和高效性等优点,解决了传统数据处理成本高、数据管理困难、可靠性低、效率低、并行处理程序编写困难等诸多问题。  相似文献   

16.
随着Internet的迅猛发展和日益普及,电子信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学领域面临的一大挑战。对Internet中的海量信息的处理进行了研究,探讨了海量信息的优化处理方法及其查询优化,在一定程度上提高了用户从海量信息获取有用信息的效率。  相似文献   

17.
本文介绍了在Excel97中文版中能够处理数据的类型,以及自己利用Excel97在物理学中处理实验数据的,以及自己利用Excel97处理、获取物理实验数据的几种方法。  相似文献   

18.
针对目前国家教育考试网上评卷海量图像文件的存储管理问题,本文提出基于Hadoop的No Sq L云存储方案,提高评卷海量数据安全性和存储可靠性,构建分布式、可扩展、高可用性和可靠性的云存储平台。通过分析基于Hadoop平台云计算体系和基于HDFS/HBase的云存储技术,结合网上评卷海量图像文件的存储需求和实际,规划基于Hadoop/HDFS/HBase的国家教育考试云存储中心的数据交换平台,并对在国家教育考试中深入应用此平台给出设计方案,提出发展愿景。  相似文献   

19.
在科技高速发展的今天,海量数据处理问题受到人们广泛关注。将K means聚类算法与Hadoop平台相结合是处理海量数据问题的一条可靠途径。简单介绍Hadoop和K means算法以及K means聚类算法MapReduce并行化实现,并阐述目前Hadoop平台下K means算法的几种优化方式,最后提出研究展望。  相似文献   

20.
进入新世纪以来,以互联网为主线的计算机应用发展十分迅速,微博、微信、社交网络圈、物联网、导航、电子商务等概念的提出以及实现在很大程度上改变了人们的日常生活,同时也带来了海量的数据,在此阐述了大数据处理方法、处理流程、处理技术及处理工具,以 facebook为例来说明大数据在信息处理中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号