深度学习驱动的海量人文社会科学学术文献学科分类研究 |
| |
作者姓名: | 刘江峰 林立涛 刘畅 何洪旭 吴娜 沈思 王东波 |
| |
作者单位: | 南京农业大学信息管理学院,江苏 南京 210095;南京理工大学经济管理学院,江苏 南京210094 |
| |
基金项目: | 国家自然科学基金项目“基于深度学习的学术全文本知识图谱构建及检索研究”的成果,项目编号:71974094; |
| |
摘 要: | [目的/意义]探索不同社会科学学科间差异,支持学科建设、科技检索服务,进一步完善文献学科的分类体系。[方法/过程]基于多种深度学习模型和预训练语言模型构建社会科学文献学科分类器,利用CSSCI目录中的20多个一级学科中近350万篇文献构成的数据集进行实验;利用Sentence-BERT输出摘要句子向量并进行层次聚类,根据聚类结果划分学科组,并计算模型对于不同学科组的分类性能以缓和学科交叉的影响;利用模糊准确性指标输出模型对每条记录输出的前N个高概率学科以弥补原有学科分类的局限性。[结果/结论]在“摘要+标题”上使用深度预训练语言模型取得最佳性能;基于层次聚类所得的学科组进行的分类较单一学科性能有所提升;模型的模糊准确性在N=3时能够达到96%。[局限]未考虑从全文文本上获取更丰富的文献学科特征进行自动分类。
|
关 键 词: | 文献学科分类 预训练语言模型 BERT 跨学科性 Sentence-BERT |
本文献已被 万方数据 等数据库收录! |
|