首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
罗新 《教育技术导刊》2017,16(12):128-130
在陶瓷行业信息聚合网站的基础上,通过Web日志分析可以获取网站用户的访问情况,但是随着Web服务器上日志的剧增,在单机上运行日志分析或挖掘程序变得越来越不可行。采用Hadoop并行计算平台对日志进行预处理,然后对页面访问量、用户访问量、网站流量等指标进行统计,还应用Apriori算法对日志进行挖掘,对群集在不同节点数、不同数据集以及不同最小支持度的情形下的性能进行比较。实验结果表明,在Hadoop平台上,随着集群节点的增加,大数据集处理性能会得到较大提升。应用Hadoop 平台构建的日志分析平台可以为陶瓷行业信息聚合平台的管理者提供各种有价值的信息。  相似文献   

2.
针对Apache web服务器集群产生的海量日志记录进行数据分析,使用Flume-ng从web服务器集群收集日志文件,利用Hadoop云平台的HDFS进行分布式日志数据存储,以MapReduce为日志数据分析编程框架,设计实现了一个web日志分析系统,论文阐述了系统的结构、设计思想和实现方法。  相似文献   

3.
不断增大的数据规模给Hadoop集群处理能力带来了挑战,而合理的作业调度方式与策略能够提高集群的运行效率。通过对Hadoop MapReduce的任务调度机制进行研究,设计了节点负载能力与动态优先级的计算方式,提出了一种动态优先级的负载均衡调度算法,并搭建小型Hadoop平台进行了实验分析。结果表明,该算法在集群负载均衡方面的效果要优于传统调度算法。  相似文献   

4.
针对传统关联规则 Apriori 算法难以适应大数据的问题,为提高可信计算平台日志数据分析效率, 提出了一种基于Hadoop的可信计算平台日志分析模型。构建了日志分析模型总体框架,对非结构化原始日志数据进行垂直划分,采用分布式文件存储系统,结合MapReduce编程模式给出一种分布式Apriori并行垂直算法。通过日志挖掘建立用户行为关联规则库,并采用规则匹配实现对用户异常行为的检测。理论分析和实验数据证明,该模型在大数据环境下能够有效提高日志分析效率。  相似文献   

5.
潘磊 《教育技术导刊》2009,19(10):152-155
为了提高电力系统中故障预测效率及便捷性,提出一种基于FP-Growth算法的电力系统故障预测方法,无需先验知识及人工标注,便可从海量历史日志数据中快速提取出故障信息模式,并基于实时日志数据对未来可能发送的系统故障进行预测。该方法首先根据电力系统不同类型的日志特征对原始数据进行预处理,然后基于FP-Growth算法挖掘日志中与故障事件相关的关联规则,并使用关联规则进行故障匹配,从而达到预测效果。算法经过真实电力系统日志数据集测试,结果表明该故障预测方法平均准确率为89.5%,平均召回率为79.8%,且执行效率较高,节省了业务人员50%以上的时间。  相似文献   

6.
对直接去重算法、Hash去重算法和Hadoop集群数据去重算法进行研究分析,得出各算法在密码字典数据去重中的适用场合。去重后的密码字典作为密码字符子集,为面向暴力破解的密码字典生成提供了有效方法。  相似文献   

7.
大数据技术已经成为当下热点问题,Hadoop技术在煤矿领域运用也引起了广泛关注。针对传统监控模式下煤矿视频监控系统图像采集点多、历史留存数据量大、不利于后续查找特征图像等问题,提出一种Hadoop平台下PCA-SIFT算子的图像特征提取算法,研究并改进了MapReduce并行编程模型的任务设计,对传统尺度不变特征转换算法进行了并行化设计,在Hadoop集群下实现了海量煤矿图像的PCA-SIFT并行特征提取。使用汾西矿务局煤矿图像井下数据集进行实验,算法SIFT特征点检测效果好,运行耗时少。在图像数量庞大时,系统加速比几乎呈线性增长趋势,验证了算法处理大规模煤矿图像数据的有效性。  相似文献   

8.
受单机内存和计算能力的限制,串行的排序算法难以对大数据进行高效排序。针对此问题,根据Hadoop的MapReduce框架对常用的内部排序算法进行并行化改进,给出改进算法的基本步骤,描述了Map、Partition和Reduce函数的主要代码。以折半插入排序和堆排序为例,通过实验比较串行算法和改进算法的执行时间,测试改进算法的可扩展性。实验结果表明,改进的并行排序算法具有较高的执行效率和较好的可扩展性。  相似文献   

9.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力.  相似文献   

10.
采用传统分布式数据库架构存储和管理海量数据,效率不高且系统的存储能力受制于所依赖的数据库管理系统的能力.Hadoop作为一种开源的架构,适合在廉价机器上对各种资源数据进行分布式存储和分布式管理,具有可伸缩性和高容错性.本文在研究开源框架Hadoop的基础上,提出了基于Hadoop的海量数据处理模型,并在不同数量的Datanode的情况下对副本系数与块大小对HDFS的I/O性能的影响进行测试,试验结果表明,提供的模型较高效率地实现了对大数据量的日志的快速预处理.  相似文献   

11.
作品介绍采用虚拟化技术构建一个云计算平台方案,同时采用SpringSource中的软件工具,开发一套面向虚拟Hadoop集群的管理平台:vCirrus。通过该平台配合虚拟机,可以方便的搭建一个Hadoop集群,对该集群进行监测和管理,还可以收集大量的系统运行信息,为整个云计算系统的维护和优化提供较好的依据。  相似文献   

12.
《中国教育网络》2011,(2):45-46
作品介绍 采用虚拟化技术构建一个云计算平台方案,同时采用SpringSource中的软件工具,开发一套面向虚拟Hadoop集群的管理平台:vCirrus。通过该平台配合虚拟机,可以方便的搭建一个Hadoop集群,对该集群进行监测和管理,还可以收集大量的系统运行信息,为整个云计算系统的维护和优化提供较好的依据。  相似文献   

13.
潘磊 《教育技术导刊》2009,19(9):186-189
为提升电网系统日志故障诊断效率,在 Spark 环境下,基于并行 Apriori 算法构建分布式日志故障挖掘系统,针对电网系统相关设备后台日志数据,构建频繁项集并挖掘关联规则,形成系统故障规则库,用于系统故障诊断。系统对 50 万条真实日志数据进行检验。结果表明,该系统可有效发现相关故障日志。同时,该系统在 80G 内存、10 个虚拟节点的集群上以 50s 的速度完成了故障挖掘工作,准确率达 90%,同时提升了原单机系统效率,实现了预期效果。  相似文献   

14.
电子通信信息是当代社会运行的重要信息组成之一,提高电子通信信息存储能力对于各行业高效率处理事务意义重大。基于Hadoop集群环境设计了单节点双层Hadoop结构,分担主节点存储信息的压力;构建MapReduce信息并行计算模型分担海量存储任务,基于动态优先级负载均衡调度算法均衡存储节点的负载量,避免个别或者少数节点负担过重,延长Hadoop存储系统节点的使用寿命。测试结果显示,该方法有效均衡了海量信息存储时间,存储大规模电子通信数据的耗时较少。  相似文献   

15.
个性化推荐系统被越来越多地应用到各类网站中,以解决信息增长带来的信息迷失和信息过栽问题,而协同过滤算法是个性化推荐系统的重要算法之一,但是传统的协同过滤算法存在数据稀疏、冷启动等问题,为了解决这些问题,在综合WEB日志挖掘和聚类两个因素基础上,提出基于WEB日志和聚类的协同过滤算法,并将该算法与传统的协同过滤算法进行分析比较,验证了该算法能够提高推荐的精确度和实时性.  相似文献   

16.
日志是计算机取证、入侵检测分析的重要数据来源,运用关联规则挖掘算法对日志进行分析是获取日志中所蕴含有用信息的重要方法,针对基于置信度-支持度框架的常用关联规则挖掘算法在日志分析中存在的不足,引入日志关键属性的概念,提出了基于关键属性约束的关联规则挖掘算法。实验结果表明,该算法能有效阻止无趣规则的产生,提高挖掘结果的有效性。  相似文献   

17.
随着信息技术和物联网技术在城市交通领域的广泛应用,城市交通流量数据已经呈现出大数据的诸多特征。采用传统的信息处理技术对交通大数据进行分析时不可避免地遇到了性能瓶颈。基于Hadoop的交通流量统计分析系统可以很好地统计和分析这些数据。通过基于Hadoop的平台对交通流量信息的处理方法展开研究,设计了交通流量统计分析系统,并给出相应研究数据,最后对系统进行仿真并验证系统的可行性与有效性。  相似文献   

18.
随着互联网的日益普及和电子商务的迅速发展,基于Web日志挖掘聚类算法的电子商务在市场中竞争越来越激烈.本文首先概述Web使用挖掘,简单介绍日志挖掘技术中两个关键技术,聚类分析和序列模式挖掘,进而讨论Web日志挖掘的数据预处理过程,包括用户,数据净化,路径补充等.对于传统的矩阵聚算法进行优化,应用该算法可以对客户和页面进行聚类分析,达到发现相似的客户群体,挖掘潜在客户群.通过实验表明改进的算法具有较高的扩展性和准确性,证明将挖掘结果应用于个性化推荐系统的思想是可行有效的.  相似文献   

19.
基于Hadoop平台的实时电影推荐系统在需要大量迭代计算时运行速度明显变慢,无法根据用户行为作出实时反馈。针对以上问题,设计基于Spark流式计算的实时电影推荐系统,可更好地满足用户实时需求。基于Spark流式计算的实时电影推荐系统将传统电影推荐算法与Spark流式计算方法相结合,在线部分使用Spark Streaming实时接收用户模拟评分,并使用Scoket编程模拟用户浏览商品时产生的实时日志数据。日志数据包括用户当前浏览电影、观看电影次数、停留时间与是否购买该商品,再使用Spark Streaming构建实时数据处理系统,计算出当前用户相关度最高的电影并进行推荐。实验结果表明,基于Spark 平台的电影实时推荐系统在离线推荐训练过程中,训练速度相对于Hadoop 平台有明显提高,能根据用户行为作出实时反馈,并向用户进行电影推荐。  相似文献   

20.
《实验技术与管理》2017,(5):144-146
利用Hadoop技术将老旧电脑组成分布式集群,做成大数据处理平台,并在此基础上建成多媒体通信实验室。该平台具有数据采集、数据处理和用户访问功能,成为一个完整的实验体系。平台硬件主要由ARM、FPGA等开发板与摄像头组成的IP摄像头和电脑搭建的分布式集群组成,IP摄像头获取的数据通过分布式集群存储,并通过交换机接入网络。用户能够通过网页客户端对Hadoop分布式运算平台进行访问。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号