融合全文信息的科学数据正式引用识别方法研究 |
| |
引用本文: | 杨宁,张志强. 融合全文信息的科学数据正式引用识别方法研究[J]. 情报理论与实践, 2022, 0(2) |
| |
作者姓名: | 杨宁 张志强 |
| |
作者单位: | 中国科学院成都文献情报中心;中国科学院大学经济与管理学院图书情报与档案管理系 |
| |
基金项目: | 国家社会科学基金重点项目“面向领域知识发现的学科信息学理论与研究应用”的成果,项目编号:17ATQ008。 |
| |
摘 要: | [目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。
|
关 键 词: | 科学数据 正式引用 深度学习 识别方法 |
Research on Formal Citation Recognition Method of Scientific Data Fused with Full-text Information |
| |
Abstract: | |
| |
Keywords: | scientific data formal citation deep learning identification method |
本文献已被 维普 等数据库收录! |
|