排序方式: 共有18条查询结果,搜索用时 500 毫秒
1.
2.
Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义。该文分析了Spark作业中影响系统行为的关键参数,建立了性能模型,并进一步探索了Spark参数自动优化的方法和策略。通过提取作业执行过程中对性能有影响的参数,对主流的19种回归模型进行了对比测试,获得通用性和拟合效果都比较好的6种回归模型,并针对不同类型的Spark任务在特定集群上建立性能模型,最后依据建立的性能模型在参数空间中利用改进的多起点爬山搜索算法寻找最优的参数组合。实验证明经参数优化后Spark作业性能有较大提升。 相似文献
3.
Spark是大数据内存计算系统的典型代表,通过内存缓存数据加速迭代型、交互型大数据应用的运行。基于时间窗口的数据分析是一类典型的大数据迭代型应用。基于Spark平台运行时间窗口数据分析应用,存在中间结果数据放置不均的问题,造成应用执行效率降低。针对上述问题,提出基于遗传算法的Spark中间结果数据迁移策略,通过考虑中间结果数据迁移时机、迁移数据规模,并使用遗传算法优化选取迁移数据放置位置,提高时间窗口应用执行效率。实验结果表明,在既有Spark平台中,采用该迁移策略可使时间窗口应用执行时间最大减少28.45%,平均减少21.59%。 相似文献
4.
《Information processing & management》2023,60(2):103217
Existing personality detection methods based on user-generated text have two major limitations. First, they rely too much on pre-trained language models to ignore the sentiment information in psycholinguistic features. Secondly, they have no consensus on the psycholinguistic feature selection, resulting in the insufficient analysis of sentiment information. To tackle these issues, we propose a novel personality detection method based on high-dimensional psycholinguistic features and improved distributed Gray Wolf Optimizer (GWO) for feature selection (IDGWOFS). Specifically, we introduced the Gaussian Chaos Map-based initialization and neighbor search strategy into the original GWO to improve the performance of feature selection. To eliminate the bias generated when using mutual information to select features, we adopt symmetric uncertainty (SU) instead of mutual information as the evaluation for correlation and redundancy to construct the fitness function, which can balance the correlation between features–labels and the redundancy between features–features. Finally, we improve the common Spark-based parallelization design of GWO by parallelizing only the fitness computation steps to improve the efficiency of IDGWOFS. The experiments indicate that our proposed method obtains average accuracy improvements of 3.81% and 2.19%, and average F1 improvements of 5.17% and 5.8% on Essays and Kaggle MBTI dataset, respectively. Furthermore, IDGWOFS has good convergence and scalability. 相似文献
5.
基于Openfire+Spark构建IM实时交流平台 总被引:1,自引:0,他引:1
分析即时通讯交流工具在国内外图书馆应用现状,指出目前各种IM工具的不足之处,并提出以开源软件Openfire+Spark构建本地IM实时交流平台的解决方案。介绍Openfire和Spark软件的功能特点,指出技术思路,同时以南京大学图书馆的IM实时交流平台的搭建为例说明实践过程和应用效果。 相似文献
6.
[目的/意义]以高校图书馆馆藏图书数据库和各类论文数据库等海量的文献资源为基础,设计推荐方案并基于Spark技术开展实证研究,力图优化图书馆文献推荐效果和提高系统计算性能。[方法/过程]首先分析大数据背景下高校图书馆文献推荐的需求,接着针对存在的文献查找缺失、文献浏览迷航和文献分析低效的现状,提出一种以文献"混合关联"为主要内容的图书馆文献推荐方案及实现算法,并应用Spark内存计算技术设计实证案例,最后对实证结果进行讨论并与同类算法比较。[结果/结论]基于Spark的文献"混合关联"方案能有效满足用户需求,提高文献推荐性能和效率,促进当前图书馆大数据应用的落地。 相似文献
7.
随着各类医疗健康信息数量的增长,如何利用医疗健康大数据辅助临床诊疗和科研,已经成为各医疗科研机构普遍关注的问题。针对该问题,设计并实现了一种基于 Spark 的分布式健康大数据分析系统。系统采用大数据分析技术并基于随机森林模型,应用多个弱分类器将多个决策树获得的结果进行集成,基于该模型实现了睡眠质量预测,同时还研究了权重较高的影响因子。最终实验预测准确率达 96.84%。实验结果对于睡眠质量分析具有一定参考意义,且系统能够较好地满足健康大数据的分析处理需求。 相似文献
8.
9.
本文以具有107年历史的俄罗斯综合新闻周刊《星火》为例,采取内容分析法,勾勒出《星火》周刊从戈尔巴乔夫时期的激进民主到叶利钦时期的全面市场化再到普京上台后的有限自由的变迁轨迹。通过对其近20年发展历程的评价分析,揭示俄罗斯转型期政治变迁与媒介生态变化、媒体转型的关系。 相似文献
10.