共查询到20条相似文献,搜索用时 15 毫秒
1.
[目的/意义]学术社交网络所提供的问答服务已成为学者们快速获取学术信息、解决学术问题的重要途径,实现基于机器学习的问答质量智能评价和服务优化对学术社交网络中优质内容传播具有重要意义。[方法/过程]以ResearchGate问答服务为研究对象,从结构化特征、内容特征、其他特征以及回答者特征4个维度构建答案质量评价体系,利用机器学习方法和数据增强技术进行答案质量分类预测。[结果/结论]SMOTE算法在处理不平衡样本时具备有效性;支持向量机在单一模型预测中,取得出色的分类效果;组合模型使预测精度得到进一步提升,基于随机森林、支持向量机、BP神经网络构建的组合模型分类性能最佳,以此为基础可通过搭建问答质量智能评价系统实现学术社交网络问答服务优化。 相似文献
2.
[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价答案质量,构建的特征体系和模型可以较为全面地预测答案质量。 相似文献
3.
[目的/意义]摘要作为学术论文中能够简明扼要地说明研究目的、研究方法和最终结论的陈述部分,具有较高的探究价值和意义。[方法/过程]选取长短期记忆网络(Long Short-Term Memory)、支持向量机(Support Vector Machine)、LSTM-CRF和CNN-CRF 4种模型,对3 672篇情报学领域的期刊论文进行摘要划分识别研究。[结果/结论]长短期记忆网络模型识别F值最高为69.15%,LSTM-CRF神经网络模型最高F值为88.76%,RNN-CRF模型最高F值达到89.10%,支持向量机分类器分类宏观F值最高为72.04%。该实验结果对图书情报领域的学术论文结构功能划分实验模型选取有较高的参考价值。 相似文献
4.
5.
个性化服务中基于支持向量机的用户兴趣挖掘分析 总被引:2,自引:1,他引:1
用户兴趣的准确获取是保证个性化服务质量的关键;分析用户所浏览的网页集,捕获用户兴趣、建立用户兴趣挖掘模型是目前个性化服务研究的一个重要方向.本文首先比较支持向量机与其他分类算法的性能,分析了基于支持向量机进行用户兴趣挖掘的可行性;然后在介绍支持向量机分类原理和分析分类预测理论模型的基础上构建了用户兴趣挖掘模型;最后选取中文网页分类训练集和特定用户的网页浏览记录,主要从支持向量机分类器的构造和用户兴趣预测两个方面进行了模型的实现研究. 相似文献
6.
学术论文高质量多标签自动分类是推动学术研究发展的关键程序之一。本研究利用Stacking模型将随机森林、支持向量机、极限树、极端梯度提升和神经网络五个分类器融合为一个异质集成分类器,并利用基于问题转换思想的多二分类模型将该分类器应用于学术论文多标签分类。根据学术论文的特点,依次实现了与之配套的论文特征提取模块、TF IDF加权模块、数据预处理模块,最终构建成一个面向学术论文的多标签分类系统。仿真实验验证了本研究构建的学术论文多标签分类系统在处理学术论文多标签分类问题时,较传统的单模型分类器或同质集成模型分类器在泛化能力、稳定性与准确率方面都有一定程度的提升。图9。参考文献21。 相似文献
7.
面向农民的问答系统问句处理研究* 总被引:1,自引:0,他引:1
为提高农民获取信息的便利性,文章着重面向农民问答系统的开发,提出问答系统由知识库构建、问句处理、信息检索、答案抽取4个模块组成,其中问句处理是研究重点。在总结农民问句特点的基础上,提出基于疑问词和短语的问句分类方法,并在问句处理过程中采用去除客气词、建立针对非正式疑问词和无疑问词时的“特殊规则表”等方法,以有效地进行问句归类及关键词提取。同时利用所构建的“同义词扩展词表”扩充关键词,并设定不同的权重基准,为信息检索模块的处理奠定基础。 相似文献
8.
本文以社会化问答社区为例,探究疫情期间健康信息需求的主题与用户情感变化特征,以期改进问答社区在突发事件中的应急策略,通过数据采集和清洗、文本预处理、LDA主题模型、BERT+BiLSTM情感分类模型对25540条数据进行知识挖掘和主题-情感协同分析。研究结果显示,本文使用的方案能够有效捕捉疫情期间网民需求健康信息的主题特征。在情感分类方面,BERT+BiLSTM模型的分类准确率较基线模型提升了11.75%。为更好地应对突发公共卫生事件,本文建议社会化问答社区应自行生产科学的健康信息、提高针对主题的舆情监控力度并积极引导用户认知。 相似文献
9.
利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学习、增强文化自信与促进文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa等预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间等命名实体识别任务。实验结果表明:SikuBERT、SikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能产生一定影响;BERT模型更为适应大规模语料任务。实验验证了基于《四库全书》繁体语料预训练的BERT模型在预训练-微调范式下典籍命名实体识别的可行性,构建了基于SikuBERT的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。 相似文献
10.
[目的/意义]通过在标注资源丰富的源领域(Source Domain)中学习,并将目标领域(Target Domain)的文档投影到与源领域相同的特征空间(Feature Space)中去,从而解决目标领域因标注数据量较小而难以获得好的分类模型的问题。[方法/过程]选择亚马逊在书籍、DVD和音乐类目下的中文评论作为实验数据,以跨领域情感分析作为研究任务,提出一种跨领域深度循环神经网络(Cross Domain Deep Recurrent Neural Network,CD-DRNN)模型,实现不同领域环境下的知识迁移。CD-DRNN模型在跨领域环境下的平均分类准确度达到了81.70%,优于传统的栈式长短时记忆网络(Stacked Long Short Term Memory,Stacked-LSTM)模型(79.90%)、双向长短时记忆网络模型(Bidirectional Long Short Term Memory,Bi-LSTM)模型(80.50%)、卷积神经网络长短时记忆网络串联(Convolution Neural Network with Long Short Term Memory,CNN-LSTM)(74.70%)模型以及卷积神经网络长短时记忆网络并联(Merged Convolution Neural Network with Long Short Term Memory,Merged-CNN-LSTM)模型(80.90%)。[结果/结论]源领域和目标领域的知识迁移能够有效解决监督学习在小数据集上难以获得好的分类效果的问题,通过CD-DRNN模型能够从无标注数据中有效地筛选特征,从而大大降低目标领域数据标注相关的工作量。 相似文献
11.
12.
13.
汉语框架网络问答系统问句处理研究 总被引:1,自引:0,他引:1
问句处理是问答系统的首要问题。汉语框架网络问答系统旨在以汉语框架网络本体为基础,选择法律领域作为研究对象,进行问句处理的研究,探索新型的问答系统设计技术,来满足用户准确检索信息的需求。本论文利用依存关系表示查询问句的句法关系,并将查询问句与问句模板库中的模板进行匹配,最终确定查询问句的配价模式,实现对查询问句的框架语义标注,为下一步基于问答的框架语义检索系统的设计奠定基础。 相似文献
14.
[目的/意义] 在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法/过程] 基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果/结论] 基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。 相似文献
15.
支持向量机根据VC 维理论和结构风险最小化原则,是一种建立在统计学习理论基础之上具有新颖、功能强大特点的机器学习方法.它具有全局最优、结构简单、推广能力强等优点,近年来越来越引起关注.但支持向量机是一种小样本机器学习方法,自身的复杂性和多重共线性成为其处理大规模数据时的"瓶颈"问题.岭回归方法是一种修正的最小二乘估计法,是一种专门用于复共线性数据分析的有偏估计方法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计.本文将岭回归-支持向量机结合,用于数据挖掘方法之一--文本分类中,实验结果表明:本方法可以提高支持向量机分类的训练速度和分类精度. 相似文献
16.
施洁斌 《现代图书情报技术》2004,20(7):27-29
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。 相似文献
17.
目录是组织与利用古籍资源的重要工具,也是图书情报学科的重点研究对象。互著与别裁作为古典目录学中的两种辅助方法,能在深入剖析文献内容特征的基础上,根据内容的多元性将文献准确、完整地记载于目录体系中,达到“类例既分,学术自明”的效果。将互著与别裁映射为文本挖掘中的文本分类问题,提出基于机器学习以实现互著与别裁的方法框架,为古籍在目录体系中的多类目记载提供方法。首先利用TextCNN与BERT两种机器学习模型对先秦诸子六家十部典籍文本进行分类训练,结果显示BERT优于TextCNN,可以达到9164%的分类准确率;之后用微调训练后的BERT模型对《荀子》与《管子》进行篇、章粒度的分类判断,最终得出这两部图书各篇章互著与别裁的结果。本研究展现了在数字人文视域下,数字技术对古典目录学、古典文献学以及学术史研究的应用价值。图5。表7。参考文献43。 相似文献
18.
本文创新性构建学术论文被引影响因素特征空间,以我校SCI&SSCI学术论文为例,验证机器学习模型在预测学术论文被引频次研究中的有效性和准确性,本文的分析结论可以为高校图书馆开展决策支持服务提供参考。本文梳理学术论文被引频次影响因素及预测方法的相关研究,结合传统文献计量和Altmetrics指标构建学术论文影响因素的特征空间,并通过实验比较线性回归、神经网络、支持向量机三种机器学习模型在预测学术论文被引频次研究中的有效性和准确性。本文的分析结论证明基于Altmetrics视角构建的特征空间的预测准确率大幅度提高,并且支持向量机模型在对学术论文影响力预测的实证研究中表现出优异的性能。 相似文献
19.
文章提出了基于支持向量机的短时用水量预测模型,对城市用水量本身固有的非线性、复杂性和不确定性进行综合考虑。结合实例数据,对基于支持向量机的预测模型和基于BP神经网络的预测模型进行比较。结果表明,基于支持向量机的预测模型在精度、收敛时间、泛化能力、最优性等方面均优于基于BP神经网络的预测模型。 相似文献
20.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究 总被引:1,自引:0,他引:1