基于迁移学习的化学键能数据自动抽取 |
| |
引用本文: | 庞娜,袁钺,薛秋红.基于迁移学习的化学键能数据自动抽取[J].现代情报,2023(1):19-28. |
| |
作者姓名: | 庞娜 袁钺 薛秋红 |
| |
作者单位: | 1. 北京大学信息管理系;2. 中国科学院软件研究所 |
| |
摘 要: | 目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。
|
关 键 词: | 迁移学习 化学键能 深度学习 自动抽取 智能知识检索 领域高频子词 联合抽取模型 科学数据 文本挖掘 |
|
|