首页 | 本学科首页   官方微博 | 高级检索  
     

学术论断句标注与识别方法探索
作者姓名:徐健  郭语凡  喻雪寒  黄雨馨  杨婷婷  王唯一  刘政
作者单位:1. 南京农业大学信息管理学院;2. 南京农业大学经济管理学院农林经济管理博士后流动站
基金项目:国家社会科学基金项目“领域学术观点库构建理论与方法研究”(20CTQ025);
摘    要:学术文本中的论断句包含了学者对研究问题的看法和判断,对其进行识别有助于组织和挖掘其中蕴含的学术观点,以辅助学者更高效地开展科研活动。在对前人研究进行归纳的基础上,提出论断句判断的3个充分条件和3个必要条件,从肯定和否定角度构建论断句判定标准。开发论断句标注系统,选择信息资源管理领域部分论文,开展摘要和全文层面论断句的标注实验。评测最小序列优化、支持向量机、朴素贝叶斯、决策树、k近邻、BERT (bidirectional encoder representations from transformers)+FC (full connection)、BERT+BiLSTM (bidirectional long short-term memory)分类器对论断句的识别效果。研究发现:(1)使用本文提出的判断标准,标注者在摘要和全文层面对学术文本中论断句和非论断句的标注一致性较高;(2)仅使用文本特征情况下,BERT+BiLSTM算法识别效果最好,准确率、召回率和F_1值等指标均大于90%;(3)论断句和非论断句在长度、段内位置、文内位置和TextRank权重上频率分布均存在差异;(4)在...

关 键 词:学术文本  论断句  文本特征  机器学习  识别
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号