首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例北大核心CSSCI
引用本文:孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例北大核心CSSCI[J].图书馆论坛,2022(10):31-41.
作者姓名:孙文龙  张逸勤  王凡铭  鱼汇沐  刘江峰  王东波
作者单位:1.南京工业大学外国语言文学学院;2.南京大学信息管理学院;3.南京熙道文化传播有限公司;4.南京农业大学信息管理学院;
基金项目:国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331);江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”(项目编号:20JYB004)研究成果。
摘    要:利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能。实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%。实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。

关 键 词:数字人文  SikuBERT  关键词提取  汉语典籍
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号