首页 | 本学科首页   官方微博 | 高级检索  
     检索      

融合结构特性的语义增强式古籍句读识别方法研究
引用本文:李佩琪,王昊,任秋彤,范涛.融合结构特性的语义增强式古籍句读识别方法研究[J].情报学报,2023(2):150-163.
作者姓名:李佩琪  王昊  任秋彤  范涛
作者单位:1. 南京大学信息管理学院;2. 江苏省数据工程与知识服务重点实验室
基金项目:国家社会科学基金重点项目“大数据环境下领域知识加工与组织模式研究”(20ATQ006);
摘    要:数字人文概念的提出扩展了古文自动化处理的内涵与外延,实现古籍文本语义的深层理解成为首要任务。因此,本文重点探索古籍句读识别任务中的语义增强模式,以提升主流BBiC模型(BERT-BiLSTM-CRF)表征古籍文本语义的能力。本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征,提出引入细粒度文本知识的BBiC-EK (BBiC-external knowledge)模型与融合文本结构特征的BBiCC-EK模型(BBiC-CNN-EK),并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置,多方位探究模型提升效果。研究结果表明,采用BBiC-EK模型中的最优外部知识组合模式,相较于基线BBiC模型能将句读识别准确率提升0.83个百分点;进一步融合CNN并探究最优模型结构下的BBiCC-EK (Se)模型能将BBiC模型的识别准确率提升1.36个百分点。本文通过融合结构特性的语义增强技术,实现了古籍文本句读识别准确率的提升,为古籍文本的自动化语义理解提供了新思路。

关 键 词:数字人文  古籍文本  句读识别  BERT
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号