融合语步和文本多特征的科技论文结构化摘要生成 |
| |
作者姓名: | 习海旭 何胜 黄纯国 |
| |
作者单位: | 1. 江苏理工学院计算机工程学院;2. 南京理工大学经济管理学院信息管理系 |
| |
基金项目: | 国家社会科学基金项目“基于情境感知的移动图书馆服务模型的构建与应用研究”(19BTQ045); |
| |
摘 要: | 在移动互联网时代,移动阅读、碎片化阅读已经成为人们阅读的主流方式。在用户阅读过程中,提供摘要内容以提高阅读效率是解决信息过载问题的重要途径之一。科技研究论文文本长、内容广且包含领域知识,其摘要生成任务相比于新闻等普通文本更具有挑战性。本文提出了一种科技论文结构化摘要方法。首先,将科技论文划分为不同的语步;其次,分别对不同语步文本进行抽取式摘要,将文本多特征按权重融入TextRank算法的迭代计算过程中,引入MMR (maximal marginal relevance)算法对预选摘要集进行冗余处理;最后,使用依存句法分析对文本进行语义分析,进一步精简摘要,并组合成结构化摘要。研究结果表明,相比于基准模型,该方法在不同语步的相关性、多样性和可读性指标提升上具有一定差异;结合人工评价发现,该方法在显著提升摘要多样性的同时,一定程度上提升了摘要的相关性和可读性。
|
关 键 词: | 语步 特征融合 科技论文摘要 依存句法分析 语义分析 |
|