基于生成式预训练语言模型的学者画像构建研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于生成式预训练语言模型的学者画像构建研究

引用本文：	柳涛,丁陈君,姜恩波,许睿,陈方.基于生成式预训练语言模型的学者画像构建研究[J].数字图书馆论坛,2024(3):1-11.

作者姓名：	柳涛丁陈君姜恩波许睿陈方

作者单位：	1. 中国科学院成都文献情报中心;2. 中国科学院大学信息资源管理系

基金项目：	“西部之光”人才培养计划“基于模式创新的医药生物产业科技服务体系研发及应用示范”（编号：E1C0000401）；

摘要：	大数据时代，互联网中以多源异构、非结构化形式存在的学者信息在实体抽取时伴有属性混淆、长实体等问题，严重影响学者画像构建的精准度。与此同时，学者属性实体抽取模型作为学者画像构建过程中的关键模型，在实际应用方面还存在较高的技术门槛，这对学者画像的应用推广造成一定阻碍。为此，在开放资源的基础上，通过引导句建模、自回归生成方式、训练语料微调等构建一种基于生成式预训练语言模型的属性实体抽取框架，并从模型整体效果、实体类别抽取效果、主要影响因素实例分析、样例微调影响分析4个方面对该方法进行验证分析。与对比模型相比，所提出的方法在12类学者属性实体上均达到最优效果，其综合F1值为99.34%，不仅能够较好地识别区分相互混淆的属性实体，对“研究方向”这一典型长属性实体的抽取准确率还提升了6.11%，为学者画像的工程化应用提供了更快捷、有效的方法支撑。
关键词：	生成式预训练语言模型样例微调学者画像 GPT-3

设为首页 | 免责声明 | 关于勤云 | 加入收藏