期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《集宁师专学报》2017,(6):37-41

网络敏感词分析是舆情监控系统的关键,该文介绍了Spark、Flume、kafka等用于系统架构的主要开源组件,分析了敏感词分析中主要用到的Han LP中文分词和命名实体识别两大组件,以及利用Word2vec训练词向量组件进行相似度判断的算法原理及时间复杂度比较,根据高校网络用户流量特征,提出了舆情监控的系统架构设计,最后展示了系统原型实现,并对其进行了探讨及前景展望。相似文献

2.

Spark作业性能建模及参数优化

崔晓龙张敏刘祥郭茜《实验技术与管理》2021,(3):146-152

Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义。该文分析了Spark作业中影响系统行为的关键参数,建立了性能模型,并进一步探索了Spark参数自动优化的方法和策略。通过提取作业执行过程中对性能有影响的参数,对主流的19种回归模型进行了对比测试,获得通用性和拟合效果都比较好的6种回归模型,并针对不同类型的Spark任务在特定集群上建立性能模型,最后依据建立的性能模型在参数空间中利用改进的多起点爬山搜索算法寻找最优的参数组合。实验证明经参数优化后Spark作业性能有较大提升。相似文献

3.

基于遗传算法的Spark中间结果数据迁移策略

梁毅陈金栋苏超毕临风《教育技术导刊》2020,19(4):89-92

Spark是大数据内存计算系统的典型代表,通过内存缓存数据加速迭代型、交互型大数据应用的运行。基于时间窗口的数据分析是一类典型的大数据迭代型应用。基于Spark平台运行时间窗口数据分析应用,存在中间结果数据放置不均的问题,造成应用执行效率降低。针对上述问题,提出基于遗传算法的Spark中间结果数据迁移策略,通过考虑中间结果数据迁移时机、迁移数据规模,并使用遗传算法优化选取迁移数据放置位置,提高时间窗口应用执行效率。实验结果表明,在既有Spark平台中,采用该迁移策略可使时间窗口应用执行时间最大减少28.45%,平均减少21.59%。相似文献

4.

A novel personality detection method based on high-dimensional psycholinguistic features and improved distributed Gray Wolf Optimizer for feature selection

《Information processing & management》2023,60(2):103217

Existing personality detection methods based on user-generated text have two major limitations. First, they rely too much on pre-trained language models to ignore the sentiment information in psycholinguistic features. Secondly, they have no consensus on the psycholinguistic feature selection, resulting in the insufficient analysis of sentiment information. To tackle these issues, we propose a novel personality detection method based on high-dimensional psycholinguistic features and improved distributed Gray Wolf Optimizer (GWO) for feature selection (IDGWOFS). Specifically, we introduced the Gaussian Chaos Map-based initialization and neighbor search strategy into the original GWO to improve the performance of feature selection. To eliminate the bias generated when using mutual information to select features, we adopt symmetric uncertainty (SU) instead of mutual information as the evaluation for correlation and redundancy to construct the fitness function, which can balance the correlation between features–labels and the redundancy between features–features. Finally, we improve the common Spark-based parallelization design of GWO by parallelizing only the fitness computation steps to improve the efficiency of IDGWOFS. The experiments indicate that our proposed method obtains average accuracy improvements of 3.81% and 2.19%, and average F1 improvements of 5.17% and 5.8% on Essays and Kaggle MBTI dataset, respectively. Furthermore, IDGWOFS has good convergence and scalability. 相似文献

5.

基于Openfire+Spark构建IM实时交流平台 总被引：1，自引：0，他引：1

沈奎林杜瑾《现代图书情报技术》2011,(5):83-87

分析即时通讯交流工具在国内外图书馆应用现状,指出目前各种IM工具的不足之处,并提出以开源软件Openfire+Spark构建本地IM实时交流平台的解决方案。介绍Openfire和Spark软件的功能特点,指出技术思路,同时以南京大学图书馆的IM实时交流平台的搭建为例说明实践过程和应用效果。相似文献

6.

基于Spark的高校图书馆文献推荐方案及实证研究

何胜熊太纯柳益君叶飞跃潘瑜《图书情报工作》2017,61(23):129-137

[目的/意义]以高校图书馆馆藏图书数据库和各类论文数据库等海量的文献资源为基础,设计推荐方案并基于Spark技术开展实证研究,力图优化图书馆文献推荐效果和提高系统计算性能。[方法/过程]首先分析大数据背景下高校图书馆文献推荐的需求,接着针对存在的文献查找缺失、文献浏览迷航和文献分析低效的现状,提出一种以文献"混合关联"为主要内容的图书馆文献推荐方案及实现算法,并应用Spark内存计算技术设计实证案例,最后对实证结果进行讨论并与同类算法比较。[结果/结论]基于Spark的文献"混合关联"方案能有效满足用户需求,提高文献推荐性能和效率,促进当前图书馆大数据应用的落地。相似文献

7.

基于 Spark 的分布式健康大数据分析系统设计与实现

吴磊欧阳赫明《教育技术导刊》2020,19(7):99-102

随着各类医疗健康信息数量的增长,如何利用医疗健康大数据辅助临床诊疗和科研,已经成为各医疗科研机构普遍关注的问题。针对该问题,设计并实现了一种基于 Spark 的分布式健康大数据分析系统。系统采用大数据分析技术并基于随机森林模型,应用多个弱分类器将多个决策树获得的结果进行集成,基于该模型实现了睡眠质量预测,同时还研究了权重较高的影响因子。最终实验预测准确率达 96.84%。实验结果对于睡眠质量分析具有一定参考意义,且系统能够较好地满足健康大数据的分析处理需求。相似文献

8.

基层（班级）学生干部培养模式的探究与应用

顾馨江郭晨王文重王颖《科教文汇》2014,(16):1-3

基层学生干部作为学生管理工作的核心,其能力培养却常常被忽略。本文基于两次基层（班级）学生干部培养班的实践经验,对基层（班级）学生干部培养的方式方法、意义及其拓展延伸做了一定的探索与思考,梳理了基层（班级）学生干部培养的结构框架,便于因地制宜地开展基层（班级）学生干部培养的相关工作。相似文献

9.

俄罗斯《星火》周刊的转型之路——对俄罗斯转型期传媒变迁的个案研究

赵永华吴秀娟《国际新闻界》2006,(8)

本文以具有107年历史的俄罗斯综合新闻周刊《星火》为例,采取内容分析法,勾勒出《星火》周刊从戈尔巴乔夫时期的激进民主到叶利钦时期的全面市场化再到普京上台后的有限自由的变迁轨迹。通过对其近20年发展历程的评价分析,揭示俄罗斯转型期政治变迁与媒介生态变化、媒体转型的关系。相似文献

10.

关中星火产业带实现农民增收的对策研究 总被引：2，自引：0，他引：2

李湄青孟欣李湄静《技术与创新管理》2005,26(1):74-78

在对四个陕西省关中星火密集区调研的基础上，分析农业内部生产组织化程度总体较低和星火企业吸纳农村剩余劳动力能力较弱等影响关中星火产业带农民增收的主要因素；探讨实现关中星火产业带内农民内、外部增收的模式，提出以产业化为基本理念进行产业结构调整和产业化经营的农业内部增收模式，以扶持星火龙头企业和推动农村二、三产业快速发展的农业外部增收模式；并对政府在实现农民增收问题上应发挥的作用提出了一些建议。相似文献