基于专名识别技术的古典文献“远读”初探——以雍正《畿辅通志》为例 |
| |
作者姓名: | 诸雨辰 李绅 胡韧奋 |
| |
作者单位: | 北京师范大学文学院/国际中文教育学院 |
| |
基金项目: | 国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”(62006021);;北京市社科重点项目“古典文献的智能化分析与关联技术研究”(21DTR037); |
| |
摘 要: | 应用BERT模型,设计了一种基于多任务联合学习的古籍文本信息标注工具,可实现对标点、专名信息的自动标注。相较于以往同类技术而言,该工具对人名、地名、时间名、书名的有效识别度更高,并将有助于“远读”方法在古籍文献领域的实现。以《四库全书》所收雍正《畿辅通志》为例,专名自动识别技术可快速提取文献出处、建筑设施的建造时间、人口分布等历史信息,也可以快速提取作家作品、经典意境。在对水利设施的兴建与对黄河水患的书写中,可以看出治河名臣李卫在编纂《畿辅通志》时的个人意志。
|
关 键 词: | 命名实体识别 远读 《畿辅通志》 |
|
|