首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

2.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

3.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

4.
徐彤阳  尹凯 《情报科学》2019,37(10):13-19
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。  相似文献   

5.
【目的/意义】深度学习是近几年来人工智能领域的研究热点之一,了解深度学习在信息组织与检索方面的研究现状,能为信息组织与检索的深入研究提供参考和借鉴。【方法/内容】通过对国内基于深度学习的信息组织与检索方向的相关文献进行梳理,剖析深度学习相关模型、阐述深度学习在信息组织与检索中的研究热点主题,并结合深度学习技术的特点和信息组织与检索的研究内容,对深度学习在信息组织与检索方向的应用前景进行预测。【结果/结论】研究表明,当前深度学习在信息组织与检索中的研究热点主要集中在智能信息抽取、自动文本分类、情感分析和文本聚类这四个主题,预测未来深度学习在信息组织与检索方向会朝着对异构信息处理、智能信息检索、个性化信息推荐等方向发展。  相似文献   

6.
彭博  童兆莉 《情报科学》2023,(3):100-108
【目的/意义】面对网络中大量由非结构化数据构成的文化遗产信息资源,如何从中抽取知识构建知识图谱并进行应用研究,是新媒体时代进行文化遗产知识深度利用的基础。【方法/过程】文章首先根据信息资源的内容与结构特征按照主题与类型进行分类,随后采用有针对性的关键词抽取方法获取概括信息资源主题的关键词,通过SPARQL检索在外部知识库中进行文化遗产信息资源的命名实体识别,最后利用词汇相似度算法依托本体进行知识融合,构建文化遗产信息资源知识图谱。【结果/结论】在实验中进行了网络文化遗产信息资源的知识抽取与知识图谱构建,利用深度学习进行文化遗产知识推理,开展了知识图谱的应用研究。研究结果表明文章方法能够充分利用网络中的文化遗产信息资源进行知识图谱构建,满足多种应用场景下分析需求。【创新/局限】由于文化遗产领域内容庞大,有关研究数据有待进一步扩充以更好的研究文章方法的适用性。  相似文献   

7.
【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医 领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺 乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通 过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍 待进一步提升。  相似文献   

8.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

9.
彭博 《情报杂志》2022,(8):156-162+178
[研究目的]实体间关联关系是知识的基本载体,对网络文物信息资源中实体关系进行抽取是大数据环境下进行文物知识发现、绘制文物知识图谱的前提,也是文物信息资源开发利用需要解决的重要问题。[研究方法]针对网络文物信息资源结构化数据标准详实、实体关系特征明确、语言描述规范等特征,从知识库中查询实体关系并依照规则进行实体关系标注,利用元数据标准进行实体关系对齐,使用预训练语言模型获取字符特征,应用深度学习有关方法获取语义特征,进行了非结构化文物信息资源实体关系的抽取。[研究结论]研究表明,在与其他预训练语言模型及深度学习方法的关系抽取对比实验中,该方法的综合效率相对较高,并根据实体关系分类的不同进行特征挖掘,为文物信息资源的研究与推广提供了有益的参考。  相似文献   

10.
李枫林  柯佳 《情报科学》2019,37(1):156-164
【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/ 过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、 句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入 更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不 同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。  相似文献   

11.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

12.
郝彦辉  王曦  陈铎 《情报科学》2021,39(8):78-85
【目的/意义】教育招生考试备受社会各界关注,极易触发舆情事件。及时监测并准确研判相关网络信息传 播发展态势,发现潜在舆情并处置应对,对于保障考试安全和维护学校声誉具有重要意义。【方法/过程】采集研究 生复试期间主流媒体社交平台数据,将BERT语言训练模型同BiLSTM相结合,构建深度神经网络模型,对文本的 情感极性进行分析。用TextRank算法提取不同情感极性类属文本的热门主题词,监测潜在舆情并提出管理建议。 【结果/结论】实证结果表明,该模型能够有效挖掘不同情感极性下的热门主题信息,从而发现潜在隐患以及可能发 生的舆情焦点,为高校网络舆情管控提供了方法参考和实践依据。【创新/局限】与传统方法相比,基于BERT的预训 练语言模型可有效解决因数据量少而导致模型无法准确表示不同语句之间复杂关系的局限性,同时BERT可对文 本进行双向建模,捕获不同句子之间的关系特点,提升对文本情感主题挖掘的准确性。  相似文献   

13.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

14.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

15.
廖建军 《情报科学》2018,36(7):123-129
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式 和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内 容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结 果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实 验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计 的 CEPR抽取方法。  相似文献   

16.
唐晓波  翟夏普 《情报科学》2019,37(4):97-102
【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利 用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片 段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关 键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片 段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知 识的文本信息组织提供了有益的参考。  相似文献   

17.
针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证.将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将通过两种模型抽取到的特征进行融合后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中,得到最终的实体识别结果.以关于乳腺癌疾病问答文本为例,研究结果表明,运用该方法得到的识别结果优于其他模型,且识别准确率达到92.3%、召回率达到89.3%、F值达到90.8%.  相似文献   

18.
文本中实体关系的确定可以使计算机清楚文本中实体间的联系,进而可以通过其中一个实体和关系得出另一个实体,关系抽取技术用于抽取文本中实体之间的关系.随着互联网技术的发展,文本数据越来越庞大.关系抽取作为信息抽取的子任务,帮助人类从海量数据中获取有用的信息,实现将非结构化、半结构化的自然语言文本转化为结构化数据.在介绍关系抽...  相似文献   

19.
【目的/意义】文本情感分类是近年来情报学领域的研究热点之一。已有研究大多关注针对目标文本的单 一情感分类。本文旨在探索基于深度学习的电商评论信息多刻面情感分类方法。【方法/过程】提出一种基于Atten⁃ tion-BiGRU-CNN的多刻面情感分类模型,通过BiGRU和CNN获取上下文信息和局部特征,利用Attention机制 优化隐层权重,以深度挖掘文本内隐语义和有效刻画多刻面情感。【结果/结论】在中文电商评论信息语料上的实验 表明,相较于其他神经网络模型,本文方法可有效提高多刻面情感分类的准确度。【创新/局限】进一步丰富多刻面 情感分类的方法途径,为深度挖掘电商评论信息以及优化产品和营销策略提供参考。本文语料主要基于单一类别 电商评论信息,聚焦可归纳刻面的情感分类,进一步的研究可面向类别多元化、需通过深度学习提取刻面信息的更 大规模语料展开。  相似文献   

20.
谭荧  唐亦非 《情报科学》2020,38(4):23-27
【目的/意义】将知识抽取的粒度细化到知识构成的最小单元--知识元,能提高知识获取的效率和精准度。【方法/过程】本文利用命名实体识别和事件抽取技术,探索了在科学文献中自动抽取事实知识元的方法。【结果/结论】实验结果表明,该方法能有效识别科学文献中的事实知识元,自动抽取效果出色。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号