首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 8 毫秒
1.
李枫林  柯佳 《情报科学》2018,36(3):169-176
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发 智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较 了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及 未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的 上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然 语言的先验知识,实体关系抽取将会取得更好的效果。  相似文献   

2.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

3.
文本中实体关系的确定可以使计算机清楚文本中实体间的联系,进而可以通过其中一个实体和关系得出另一个实体,关系抽取技术用于抽取文本中实体之间的关系.随着互联网技术的发展,文本数据越来越庞大.关系抽取作为信息抽取的子任务,帮助人类从海量数据中获取有用的信息,实现将非结构化、半结构化的自然语言文本转化为结构化数据.在介绍关系抽...  相似文献   

4.
化妆品标准有助于规范化妆品市场,同时也是相关部门进行安全监管的重要依据。为了解决化妆品标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,本文提出了一种融合了注意力机制的BERT-BiLSTM-Attention-CRF模型来提取文本中的实体和关系,引入的注意力机制能够优化权重分配、消除噪音,进而提高抽取的准确性。为了验证模型的有效性,我们与几种常见的深度网络模型进行了对比,结果证明我们的模型在自建的化妆品标准数据集上的F1值比其他模型高了3.9%~12.1%,进一步验证了模型的有效性和合理性。  相似文献   

5.
彭博 《情报杂志》2022,(8):156-162+178
[研究目的]实体间关联关系是知识的基本载体,对网络文物信息资源中实体关系进行抽取是大数据环境下进行文物知识发现、绘制文物知识图谱的前提,也是文物信息资源开发利用需要解决的重要问题。[研究方法]针对网络文物信息资源结构化数据标准详实、实体关系特征明确、语言描述规范等特征,从知识库中查询实体关系并依照规则进行实体关系标注,利用元数据标准进行实体关系对齐,使用预训练语言模型获取字符特征,应用深度学习有关方法获取语义特征,进行了非结构化文物信息资源实体关系的抽取。[研究结论]研究表明,在与其他预训练语言模型及深度学习方法的关系抽取对比实验中,该方法的综合效率相对较高,并根据实体关系分类的不同进行特征挖掘,为文物信息资源的研究与推广提供了有益的参考。  相似文献   

6.
实体关系抽取是指从文本中发现两个实体之间的关系。提出一种新的基于语义核的中文实体关系抽取方法,在通常的序列核中嵌入语义信息,然后用改进后的k均值算法进行聚类。实验结果证明我们的方法是比较有潜力的。  相似文献   

7.
在基于Bootstrap的信息抽取技术中,为提高实体关系抽取模式的质量,需要对抽取模式的可信度进行评估.本文提出了根据模式的历史匹配记录来对其进行可信度评估的简单方法,并以此为基础对模式进行了优化合并.经过可信度评估的模式在对句子进行实体关系标注时,有效提高了标注的准确率.这说明该方法能够提高抽取模式的质量,对信息抽取系统的性能提高有一定价值.  相似文献   

8.
介绍了C#网络编程及C#多线程编程的相关类库,以及网络编程的相关类库,并通过一个大型评论网站的数据抽取为背景,分析了相关的技术难点,分为抽取、处理、存储三个模块,构造了解决方案并将其实现。实验证明,该框架非常有效。  相似文献   

9.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

10.
[目的/意义] 从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程] 以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论] 与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。  相似文献   

11.
首先分析了互联网文本中命名实体分布特征;然后使用UIMASDK构建一个文本分析引擎在文档中寻找命名实体,将结果写入抽取信息数据库EIDB中;最后对文本中包含的命名实体的强关联关系进行了关联分析。实验证明该框架非常有效。  相似文献   

12.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

13.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

14.
以英汉机器翻译为研究背景,提出一种基于多种策略的句子结构分析方法。针对不同情况以谓语动词为中心采取不同策略分析简单句的结构,从而得到整个句子的语法语义结构。  相似文献   

15.
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

16.
刘春丽  陈爽 《现代情报》2023,(12):143-163
[目的/意义]科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用,相比最早的基于人工标注的知识实体抽取技术,如今已经发生了翻天覆地的变化;此外,近年来,学者对科学文献中知识实体的评价也进行一些探索,取得了较大进展。[方法/过程]在相关文献调研基础上,回顾并比较了基于人工标注的方法、基于规则的方法、传统机器学习、基于深度学习与大语言模型在知识实体抽取方面的优缺点,列举了相关数据集、软件与工具及相关专业会议;从提及频率、替代计量及其影响因素、实体共现网络及实体扩散/引文网络、基于知识实体的同行评议、基于知识实体的论文新颖性和临床转化进展五大方面,对知识实体的评价研究最新进展进行了归纳与整理。[结果/结论]针对目前存在的问题,建议在具体的知识实体抽取任务中,抽取方法选择应权衡多方面因素,再依此选择一个或多个模型完成实体抽取任务;在知识实体评价方面,应重视指标多样化、可靠性、有效性、系统性和规范化研究,关注对知识实体评价指标的影响因素、指标间相关关系与因果关系的实证分析,构建基于知识实体的论文评价...  相似文献   

17.
徐宝祥  王玉红 《情报科学》2001,19(7):720-722
在实体关系模型中有许多必需的代码组能够被用于组成一般的ER类的层来直接表现不同的概念,针对某种应用领域的特殊ER模型,可以用最少的编码作为一般ER类的子类而确立。除了减少编码,这些类同样清除转换工作页不必考虑实现,本文讨论和一般ER类的设计。  相似文献   

18.
李中言 《现代情报》2005,25(12):67-68
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识),它提供了一条从浩瀚的信息堆积中抽取出与用户相关信息的一条思路。文章分析了信息抽取的主要概念、主要分析了信息抽取的类型和信息抽取系统的一般结构及功能。  相似文献   

19.
周霜菊 《现代情报》2009,29(3):194-196
尽管目前我们拥有Google、百渡等通用搜索引擎,但对于特定领域,人们需要的不仅仅是信息所在地址的指向,还需要获取更小粒度的信息知识集成。本文尝试结合Web网页文档的特点及领域本体知识,以及信息提取、知识挖掘和XML等技术,给出了一种基于领域本体的Web信息集成方法,旨在提高用户利用Web信息的效率。  相似文献   

20.
机器学习技术在自然语言处理中的应用是一个研究热点。简单介绍并分析、评价了机器学习的方法之一--基于实例学习。就其在自然语言处理关键环节之一--浅层句法分析方面进行实验研究并分析其结果。最后,讨论了基于实例学习在自然语言处理中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号