首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
考察特定领域文本中蕴含的细粒度知识实体的使用情况,对知识实体的评估和选择具有重要意义。学术文本中的细粒度知识实体通常具有多个类型、多种关联关系,挖掘知识实体的同质与异质关联关系,有助于深入了解特定领域知识实体的实际使用情况。目前相关研究大多针对学术文本中单一知识实体的抽取和评估,缺乏对知识实体间关系的关注,在一定程度上限制了基于实体抽取进行知识发现的能力。文章以自然语言处理领域为例,对学术论文全文中的细粒度知识实体关联数据进行挖掘,并通过可视化方式揭示关联数据中蕴含的信息。主要是选取全国计算语言学会议2009-2018年间收录的中文论文为原始语料,人工标注论文中使用的知识实体,并针对NLP特点将其细分为“指标实体”“工具实体”“资源实体”“方法实体”4种类型;结合关联规则挖掘算法Apriori和复杂网络分析软件构建知识实体关联网络,揭示该领域常用的知识实体,以及这些知识实体的使用相关性。  相似文献   

3.
命名实体识别研究进展综述   总被引:5,自引:0,他引:5  
介绍命名实体识别的研究背景和意义,总结国内外命名实体识别研究历史,详细介绍目前主流的技术方法和评估方法,讨论命名实体识别技术的发展趋势。  相似文献   

4.
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。  相似文献   

5.
针对领域命名实体识别过程中标注语料少、手工标注工作量大的问题,提出了一种基于Bootstrap的领域命名实体半监督标注方法,从少量种子实体出发,抽取上下文规则和词性特征,通过构建特征模板匹配符合规则的新实体,以最长匹配原则对无标注文本进行实体反标获得自动化标注的语料库,最后利用人工校验方法实现标注数据的检查和纠正.实验...  相似文献   

6.
7.
赵华茗  钱力  余丽 《图书情报工作》2020,64(11):108-115
[目的/意义]探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程]以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论]与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。  相似文献   

8.
基于本体的汉语领域命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点.本文将命名实体分为两大类:常规命名实体和领域命名实体.基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法.该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别.实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%.同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用.  相似文献   

9.
本文通过研究开源自然语言处理平台GATE和条件随机场模型,提出一种高效的电子产品领域命名实体识别策略,为实习项目中的初步工作--通过计算机智能方法识别出电子产品领域的产品品牌、属性等命名实体提出解决方案,并为下一步可能开展的领域内自动问答系统等高层应用提供底层支撑.该方法是基于层叠模型的规则与统计相结合的新的方法,分别继承了基于规则和基于统计识别方法的优点.最终,通过分析电子产品领域自身的领域特点实现了如品牌、重量等二十余种命名实体的识别.对比实验结果表明,该系统达到了令人满意的识别效果.  相似文献   

10.
科研文献正文中包含未被文摘、题录记载的仪器信息,从正文中有效提取此类信息可作为仪器绩效评估等定量研究的依据。文章以化学领域论文与大型分析仪器为对象,实现了通过语义相似度及构词规律从文献中发现未知仪器名、针对PDF排版的仪器名模糊检索,以及基于文献类型、正文结束标识、使用标识词、全称简称对应关系的实际使用仪器与未使用仪器和同名实体的区分,并与人工标注结果比对验证了准确性。  相似文献   

11.
范涛  王昊  陈玥彤 《情报学报》2022,41(4):412-423
地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。  相似文献   

12.
命名实体识别是自然语言处理领域的基础性工作,旨在从非结构化文本中识别出具有特定意义的实体并分类,在多种自然语言处理任务中发挥重要作用。由于中文命名实体没有明显的边界标记,且存在歧义和嵌套等问题,其识别过程比英语等其他语言要更为复杂。近年来,深度学习技术发展迅速,在中文命名实体识别中得到广泛应用,并已成为主流方法。系统梳理中文命名实体识别中深度学习技术的研究进展,重点从文本表示、特征编码、预测解码3个方面,对比分析代表性工作的关联性和关键技术,讨论研究中存在的问题、现有解决方案和未来的研究方向。  相似文献   

13.
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。  相似文献   

14.
随着互联网经济的飞速发展,信息抽取领域的产品命名实体识别在商务智能领域有着广泛的应用。本文采用条件随机场(CRF)模型,选取词汇、词法和词形上一系列的特征进行训练,通过交叉验证对识别效果进行评价,并通过识别效果指导特征的选取。实验中比较了两种标注方式(BRAND/TYPE和PROD),并取得了令人满意的识别效果。在与最大熵模型对比中,验证了CRF模型对于产品实体识别的优越性。  相似文献   

15.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义.[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、B...  相似文献   

16.
17.
标注古代中医文献的命名实体能挖掘其蕴藏的中医学知识,推进中医现代化发展。文章基于BERT-base、RoBERTa、SikuBERT、SikuRoBERTa预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer (FLAT)结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。实验结果表明:直接使用古文繁体BERT模型对古代中医文献进行领域命名实体识别,基于繁体《四库全书》的SikuBERT、SikuRoBERTa预训练模型效果优于BERT-base、RoBERTa模型;引入FLAT结构作为微调模型后,SikuBERT在有标点情况下表现最优,识别效果可提升4%左右,SikuRoBERTa在无标点情况下表现最优,识别效果可提高2%~3%。实验验证了FLAT作为微调模型对BERT模型在中医专业领域中古文献命名实体识别工作上的有效性。该微调模型可以有效避免分词错误引起的实体识别传播错误,提高中医命名实体的识别效率。  相似文献   

18.
面对海量的科技文献资源,如何评估文献、作者和研究机构的学术质量和可信度引起了广泛关注。在众多可信度评价标准中,权威度是优先和关键的评价指标。因此,对科技文献、作者和机构等学术实体的科技实力和权威度进行研究与量化评估具有很大的现实意义。本文利用文献、作者、机构等三类实体间的引用、合著、合作等关系建立异构网络模型,在此基础上提出了混合随机游走算法 Co-AcademicRank 定量计算文献、作者、机构的权威度,并基于 MapReduce 实现了分布式的 Co-AcademicRank 算法。最后通过对情报学和图书馆学数据集测试与分析,对比分析了 PageRank 和 Co-ranking 算法,验证了本模型的有效性、准确性和优越性。同时,实验比较了算法在单机环境下和 Hadoop 平台下的运行时间,证明了分布式算法的高效性和稳定性。  相似文献   

19.
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。  相似文献   

20.
文章总结了项目申请书中命名实体的分布特点,并根据这种分布特点,利用条件随机场构建了面向项目申请书的命名实体抽取模型,并对模型的性能进行了验证.实验表明,模型能够较好地对项目申请书中的命名实体进行抽取.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号