共查询到20条相似文献,搜索用时 0 毫秒
1.
文本中实体关系的确定可以使计算机清楚文本中实体间的联系,进而可以通过其中一个实体和关系得出另一个实体,关系抽取技术用于抽取文本中实体之间的关系.随着互联网技术的发展,文本数据越来越庞大.关系抽取作为信息抽取的子任务,帮助人类从海量数据中获取有用的信息,实现将非结构化、半结构化的自然语言文本转化为结构化数据.在介绍关系抽... 相似文献
2.
化妆品标准有助于规范化妆品市场,同时也是相关部门进行安全监管的重要依据。为了解决化妆品标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,本文提出了一种融合了注意力机制的BERT-BiLSTM-Attention-CRF模型来提取文本中的实体和关系,引入的注意力机制能够优化权重分配、消除噪音,进而提高抽取的准确性。为了验证模型的有效性,我们与几种常见的深度网络模型进行了对比,结果证明我们的模型在自建的化妆品标准数据集上的F1值比其他模型高了3.9%~12.1%,进一步验证了模型的有效性和合理性。 相似文献
3.
4.
[研究目的]为了帮助政府、企业和科研人员从海量的听证公开文本中发现科技相关政策和热点,快速、全面地识别出有价值的信息。[研究方法]梳理听证公开文本的类型与特点,并对其中有价值的信息进行合理的界定与分类;根据文本的内容特征和话语特征提出事件句识别、事件类型检测和事件论元抽取的三阶段式事件抽取方法,以实现有价值信息的抽取;对抽取的有价值信息进行深入分析。[研究结论]与基准模型相比,该研究所提方法在事件句识别召回率上提高33%,F1提高17%,在事件类型检测的精确率上提高1%,在事件论元抽取的精确率上提高18%,召回率提高4%,取得了一定效果,为此类文本进一步分析提供了新研究思路。 相似文献
5.
实体关系抽取是指从文本中发现两个实体之间的关系。提出一种新的基于语义核的中文实体关系抽取方法,在通常的序列核中嵌入语义信息,然后用改进后的k均值算法进行聚类。实验结果证明我们的方法是比较有潜力的。 相似文献
6.
关系抽取是文本挖掘的一项重要研究内容,它能够反映命名实体之间的关系,有助于发现隐含在大量数据和文本中的知识。以生物信息学为例,重点论述了国内外关系抽取技术的研究进展、常用技术与方法及应用,并对未来关系抽取技术的发展进行了展望。 相似文献
7.
伴随GIS深度和广度的不断增加,针对传统关系抽取模型存在复杂度高、耗时长的问题,本文提出了基于鲁棒主成分分析的空间GIS文本关系自主抽取.基于鲁棒主成分分析对空间采取降噪处理,实现低矩阵降维效果,根据不同的矩阵范数建立相应的空间关系.架构可度量的一维、二维、三维GIS空间,结合文本关系的自相似性,分析自主抽取过程;使用... 相似文献
8.
[目的/意义]旨在为提升政策文本的自动化处理程度提供参考。[方法/过程]在梳理已有政策本体及其构建方式基础上,提出由词汇语义主导的自下而上的本体构建方法,运用本体构建工具Protégé5.5.0构建科技创新政策文本本体,对部分政策内容进行标注并可视化。[结果/结论]该本体适用于科技创新政策文本的结构化语义抽取,能够在一定程度上揭示科技创新政策的结构化语义特征。 相似文献
9.
10.
11.
12.
基于信息抽取的文本知识挖掘模型研究 总被引:3,自引:0,他引:3
从文本知识挖掘的定义入手,分析了文本知识挖掘的关键技术,并在此基础上建立了基于信息抽取的文本知识挖掘模型,最后通过实例(DiscoTEX)说明这个模型是可行的。 相似文献
13.
基于文本内容的农业网页信息抽取和分类研究 总被引:1,自引:0,他引:1
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。 相似文献
14.
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问
题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先
进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源
环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类
关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局
限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限
制,模型精度尚未达到峰值,有待进一步优化提升。 相似文献
15.
16.
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。 相似文献
17.
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。 相似文献
18.
为提高科技文献中各类型知识元抽取的效率,提出一种基于序列模式的科技文献知识元抽取模型。该方法首先在各类型知识元描述规则的基础上,对知识元语句进行依存句法分析,生成融入语义的知识元序列模式;其次,基于知识元序列模式,通过模式匹配算法实现各类型知识元的抽取;最后,基于Prefixspan算法,从抽取的知识元中挖掘出新的描述知识元的序列模式,以实现知识元序列模式的不断动态更新与扩展,进而依据知识元序列模式提高知识元的抽取效率。基于序列模式的科技文献中知识元的抽取方法,克服了基于规则匹配的语义局限,具有学科延展性,提高了知识元抽取的效率。 相似文献
19.
在领域本体已知和文本语义标注主要步骤的基础上,本文用数据挖掘技术实现文本语义信息的获取,提出了文本语义分析与标注的基本思想和处理流程,深入探讨了用聚类分析完成实例分析与标注过程,用关联挖掘和分类方法完成实例间关系的分析与标注过程。 相似文献
20.
[目的/意义]科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用,相比最早的基于人工标注的知识实体抽取技术,如今已经发生了翻天覆地的变化;此外,近年来,学者对科学文献中知识实体的评价也进行一些探索,取得了较大进展。[方法/过程]在相关文献调研基础上,回顾并比较了基于人工标注的方法、基于规则的方法、传统机器学习、基于深度学习与大语言模型在知识实体抽取方面的优缺点,列举了相关数据集、软件与工具及相关专业会议;从提及频率、替代计量及其影响因素、实体共现网络及实体扩散/引文网络、基于知识实体的同行评议、基于知识实体的论文新颖性和临床转化进展五大方面,对知识实体的评价研究最新进展进行了归纳与整理。[结果/结论]针对目前存在的问题,建议在具体的知识实体抽取任务中,抽取方法选择应权衡多方面因素,再依此选择一个或多个模型完成实体抽取任务;在知识实体评价方面,应重视指标多样化、可靠性、有效性、系统性和规范化研究,关注对知识实体评价指标的影响因素、指标间相关关系与因果关系的实证分析,构建基于知识实体的论文评价... 相似文献