基于BLSTM-CRF的自举式术语识别方法研究 |
| |
引用本文: | 陈翀,高欣妍,黄红.基于BLSTM-CRF的自举式术语识别方法研究[J].情报工程,2023(5):97-111. |
| |
作者姓名: | 陈翀 高欣妍 黄红 |
| |
作者单位: | 1. 北京师范大学政府管理学院;2. 富媒体数字出版内容组织与知识服务重点实验室 |
| |
摘 要: | 目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;再基于术语质量特征构造筛选准则,从候选术语中挑出优质且新增的结果加入到新一轮训练的标注词汇集合,迭代标注训练,直到新增术语量小于某一阈值或迭代达到特定次数。本文还检测了模型迭代训练效率及在其他领域的推广性,将在计算机领域语料训练出的模型用于新兴的融合出版领域的技术术语识别。局限]术语质量特征量化方法待综合多指标优化,模型改进学习机制未引入负例且迭代不易收敛等。结果/结论]本文最终通过标注数量和标注语境丰富度实验表明了采用新增标注数据进行迭代的有效性。以50轮迭代训练后结果为例,在计算机测试语料上识别术语及其所有标注序列的F1值为0.43和0.59,新术语率为0.79,均优于基准BLSTM-CRF模型、BERT-BLSTM-CRF模型效果,证实了新方法启动成本低,领域适应性好,能够有效解决术语识别中训练语料缺乏的问题。在模型迁移效能评价中,抽样...
|
关 键 词: | 术语识别 自举 BLSTM-CRF模型 识别性能评价 术语质量筛选准则 |
|
| 点击此处可从《情报工程》浏览原始摘要信息 |
| 点击此处可从《情报工程》下载免费的PDF全文 |
|