排序方式: 共有18条查询结果,搜索用时 78 毫秒
11.
[目的/意义] , 从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小, 用于满足在线论文相似性检测秒级响应需求。[方法/过程] 采用分治法策略, 对已知文本句集进行基于正交基的软聚类预处理, 并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测, 采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论] 通过200万规模的已知文本集实验结果显示, 综合4种类型的待检测论文, 所提出的倒排索引结合软聚类算法准确率P为100.0%, 召回率R为93.6%, 调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右, 比Simhash算法高约23%。在检测速度上, 对于一篇字数为5 000左右的待检测论文, 检测时间约为6.5秒, 比Simhash算法快近300倍, 比LCS算法快约4 000倍。此外, 实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。 相似文献
12.
[目的/意义] 在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代——全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。[方法/过程] 在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台。[结果/结论] 引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度。 相似文献
13.
戴鸿斌 《浙江教育学院学报》2012,(2):41-46
《驾驶席》是当代著名英国女小说家缪里尔·斯帕克代表作之一,在创作技巧上具有明显的新小说特征:作者借助几近匿名的主人公形象和超然物外的思想情感表现出典型的非个性化叙述倾向;为拒斥故事情节的正常有序发展,她使用了两种别具一格的策略——现在时态叙事、第三人称叙述结合“闪前”。这些特征成其为“用英语创作的最成功的新小说作品”。 相似文献
14.
为改善网络舆情态势感知与预警中舆情信息分析不准确的问题,提出基于 Spark 技术的均值漂移(MS)算法,利用该算法原理分析 Spark 框架特性,给出该算法在 Spark 框架中的实现过程,包括舆情信息预处理、特征提取、特征向量模型构建和算法聚类设计。在相同数据集下将 MS 算法和 K-means 算法聚类效果进行对比,实验结果显示,K-means 算法聚类结果受 k 值选取的影响,存在聚类结果不准确的问题;基于 Spark 的 MeanShift 算法在没有任何先验条件下舆情聚类效果优于 K-means 聚类算法,且符合预期期望。 相似文献
15.
为提升电网系统日志故障诊断效率,在 Spark 环境下,基于并行 Apriori 算法构建分布式日志故障挖掘系统,针对电网系统相关设备后台日志数据,构建频繁项集并挖掘关联规则,形成系统故障规则库,用于系统故障诊断。系统对 50 万条真实日志数据进行检验。结果表明,该系统可有效发现相关故障日志。同时,该系统在 80G 内存、10 个虚拟节点的集群上以 50s 的速度完成了故障挖掘工作,准确率达 90%,同时提升了原单机系统效率,实现了预期效果。 相似文献
16.
李晓青 《湖北广播电视大学学报》2008,28(10):61-62
英国二战后的重要女作家缪丽尔·斯巴克的作品被越来越多的评论关注。因其作品中的宗教主题,她被冠以“天主教作家”的称号。但在后现代文化视角下,无论是斯巴克的创作思想还是其作品特点,实质上都体现了多种可能性、反唯一中心的后现代主义精神,颠覆了其“天主教作家”的头衔。 相似文献
17.
缪里尔·斯帕克是英国当代颇具影响的小说家,向来以"天主教作家"著称。其作品虽具有浓厚的宗教色彩,但不应限囿于宗教主题的解读范畴。事实上,斯帕克的宗教皈依认知具有后现代哲学思想意味。她的作品是开放的,包含着多种可能性的故事诉说,呈现出中心消解、主题多元、形象迭用、开放叙事的基本特色,折射出她创作中的后现代诉求。 相似文献
18.
为了解决服务器运行过程中由于性能故障造成服务质量下降的问题,提出一种基于决策树的日志分析方法,以服务器日志文件中记录服务器关键性能指标的数据为研究对象,利用决策树中常用的ID3、C4.5和CART 3种算法预测服务器未来性能指标发展趋势。实验结果表明,在实际运行过程中,C4.5算法对服务器性能指标数据预测的准确率和召回率最好,分别达到了92.23%和95.37%,在3种决策树算法中拥有最高的准确率与召回率,且相比传统开发人员从日志文件中寻找故障的方法,准确率提高了20%左右,因此能够更好地预测服务器系统性能指标发展趋势。通过该方法可提前感知系统运行状况,并及时作出调整,从而有效降低实际生产过程中服务器故障发生概率,提高服务质量。 相似文献