首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

2.
[目的/意义]当前各学科领域文献增长迅速,迫切需要以面向“问题解决”的思路,从大量科技文献中抽取出研究问题、解决方案及其解决关系,并以此为基础开展领域知识演化研究。[方法/过程]文章提出了可应用于实践的低成本领域实体关系抽取方案:依托词嵌入类比的思想,仅从领域知识资源中提取的少量实体关系对作为基准即可实现关系分类。[结果/结论]在人工智能领域数据集上使用基于词嵌入类比方案的集成模型,抽取解决关系、问题层级关系、方法层级关系的F1值分别为82.33,81.49,74.81。最后,将集成模型应用于全量数据抽取实体关系,从宏观、中观、微观三个层面展示了面向问题解决的人工智能领域知识演化情况。  相似文献   

3.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

4.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

5.
[目的/意义] 从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程] 以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论] 与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。  相似文献   

6.
[研究目的]为细粒度发现相近学科间的知识关联,推动学科间知识交流,通过抽取方法知识元,探析不同学科领域研究方法的交流态势。[研究方法]以情报学和计算机科学学为例,首先,编写方法知识元抽取规则,基于规则抽取两学科领域大样本文献的方法知识元,构建学科领域方法知识元库;再利用LDA模型抽取两学科领域代表性期刊的方法知识元;以此为基础,对比分析两学科领域的高频研究方法、已交流的研究方法、存在交流潜力的研究方法。[研究结论]研究发现,两学科已交流的研究方法有:聚类分析、LDA模型、BP神经网络、支持向量机、主成分分析、协同过滤、文献计量等;具有交流潜力的研究方法有:提高准确率的分类算法(AdaBoost算法、XGBoost算法、SMOTE算法)、图卷积神经网络、自然语言处理模型GloVe模型等。该研究不仅能为情报学研究者选择计算机科学学领域的研究方法提供参考,而且也为学科交叉研究提供了一种新思路。  相似文献   

7.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

8.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

9.
[目的/意义]准确把握公众微博评论中所反映的公众观点并总结舆论焦点,有助于及时获取和引导社会舆情态势,对政府公信力、快速响应能力及执行力提升具有支撑作用。[方法/过程]文章针对当前政府微博评论社会功能发挥的现实要求和其文本特征挖掘的技术需求,从基于深度学习的文本智能语义理解和挖掘出发,提出了适用的细粒度四元组标注策略,构建了政府微博评论观点抽取与焦点呈现的深度学习模型POF-BiLSTM-CRF,即通过细粒度标注策略确定、Word2vec训练词向量、BiLSTM评论特征学习进行标签及其概率输出、CRF学习上下文实现微博评论标注优化,以及观点聚类和主题词提取后最终呈现舆论焦点。[结果/结论]针对"中国警方在线"微博评论的实验表明,文章所提研究框架和模型能够有效进行舆论观点的智能化提取,为快速把握公众观点及为政府决策提供了参考。  相似文献   

10.
刘春丽  陈爽 《现代情报》2023,(12):143-163
[目的/意义]科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用,相比最早的基于人工标注的知识实体抽取技术,如今已经发生了翻天覆地的变化;此外,近年来,学者对科学文献中知识实体的评价也进行一些探索,取得了较大进展。[方法/过程]在相关文献调研基础上,回顾并比较了基于人工标注的方法、基于规则的方法、传统机器学习、基于深度学习与大语言模型在知识实体抽取方面的优缺点,列举了相关数据集、软件与工具及相关专业会议;从提及频率、替代计量及其影响因素、实体共现网络及实体扩散/引文网络、基于知识实体的同行评议、基于知识实体的论文新颖性和临床转化进展五大方面,对知识实体的评价研究最新进展进行了归纳与整理。[结果/结论]针对目前存在的问题,建议在具体的知识实体抽取任务中,抽取方法选择应权衡多方面因素,再依此选择一个或多个模型完成实体抽取任务;在知识实体评价方面,应重视指标多样化、可靠性、有效性、系统性和规范化研究,关注对知识实体评价指标的影响因素、指标间相关关系与因果关系的实证分析,构建基于知识实体的论文评价...  相似文献   

11.
[目的/意义]近年来,科技文献资源呈爆炸性增长,海量科技文献中依旧存在大量非结构化摘要。非结构化摘要一方面不利于学者阅读与理解;另一方面不利于对摘要内部信息进行知识的自动化抽取和相应的检索。研究科技文献非结构化摘要的知识表示模型及其自动化抽取方法,对学者快速阅读和机器自动化处理具有重要意义。[方法/过程]文章在分析科技文献非结构化摘要结构的基础上,结合知识元本体理论,构建了一个面向科技文献非结构化摘要的知识元本体模型。通过分析非结构化摘要的写作特征,将文本按句子级划分为目的、方法、结果或结论三个要素,统计每个要素句中的线索词、句型和位置,建立相关规则库,根据本体模型和规则库构建相关抽取算法。最后,下载《计算机技术与发展》中的部分文献进行实验。[结果/结论]通过增加句型集和线索词集,完善了非结构化摘要的要素,构建了非结构化摘要知识元本体模型。实验结果表明,根据本文提出的模型能有效地对非结构化摘要中的知识元进行抽取。[局限]实验的不足之处是需要人工对摘要中的句型和线索词进行归纳总结。  相似文献   

12.
[目的/意义]针对专业领域研究人员难以从大量无监督文本数据中快速获取领域关键知识,以精准把握专业研究方向和内容。[方法/过程]文章提出一种基于迁移学习领域自适应的文本关键词提取模型。首先通过采集中国知网中特定领域的文章和关键词,将其作为目标域数据,将待提取关键词的无监督文本作为源域数据,通过最小化二者间的共享相似特征和关键词分类交叉熵,实现关键词提取方法的跨领域迁移,完成对无监督领域文本的关键词提取任务。[结果/结论]对1313篇“人工智能风险”主题的文章进行领域关键词提取,实验表明该领域关键词提取模型相比于BiLSTM-CRF、TF-IDF模型提取效果提升显著,在领域关键知识提取场景中有较强应用价值。  相似文献   

13.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

14.
[目的/意义]基于知识元理论对水书习俗非遗资源知识元进行知识抽取与组织,助力水书习俗非遗资源的开发与利用。[方法/过程]构建水书习俗非遗资源知识元语义描述模型,基于知识元语义模型与深度学习技术对水书习俗非遗资源进行知识元抽取,并对水书习俗非遗资源进行细粒度知识组织与可视化研究。[结果/结论]实现水书习俗非遗资源多维知识关联关系的揭示,促进了水书习俗非遗资源的传承、开发与利用。  相似文献   

15.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

16.
[目的/意义]基于数据科学与情报学领域的密切联系,对数据科学任职要求知识进行深入挖掘,有利于掌握社会对于情报学相关领域人才的需求,从而完善情报学教育的培养方案,帮助实现社会需求与高校教育的良好对接。[方法/过程]文章采集了国内主流招聘网站中数据科学相关工作岗位的招聘信息,并对数据进行解析、去重等清洗工作,对招聘信息中的任职要求实体进行人工标注,比较了LSTM,BiLSTM-CRF和BERT三种深度学习模型应用于实体识别的效果。[结果/结论]结果表明,BiLSTM-CRF模型对任职要求实体的识别效果最好,相较于其他两种深度学习模型具有一定的优势。文章根据抽取出的任职要求实体从实践能力、学历要求、脚本语言、数据处理、综合素质等方面总结了目前情报学人才应当具备的技能和素质,并由此提出了针对情报学教育的人才培养方案。  相似文献   

17.
彭博  童兆莉 《情报科学》2023,(3):100-108
【目的/意义】面对网络中大量由非结构化数据构成的文化遗产信息资源,如何从中抽取知识构建知识图谱并进行应用研究,是新媒体时代进行文化遗产知识深度利用的基础。【方法/过程】文章首先根据信息资源的内容与结构特征按照主题与类型进行分类,随后采用有针对性的关键词抽取方法获取概括信息资源主题的关键词,通过SPARQL检索在外部知识库中进行文化遗产信息资源的命名实体识别,最后利用词汇相似度算法依托本体进行知识融合,构建文化遗产信息资源知识图谱。【结果/结论】在实验中进行了网络文化遗产信息资源的知识抽取与知识图谱构建,利用深度学习进行文化遗产知识推理,开展了知识图谱的应用研究。研究结果表明文章方法能够充分利用网络中的文化遗产信息资源进行知识图谱构建,满足多种应用场景下分析需求。【创新/局限】由于文化遗产领域内容庞大,有关研究数据有待进一步扩充以更好的研究文章方法的适用性。  相似文献   

18.
[目的/意义]互联网开源信息具有海量、多源异构等特点,如何从中及时发现有价值的信息,并对信息加以情报利用一直是情报研究和实践应用的重点领域之一。文章提出一套开源的学术会议领域信息抽取框架,解决信息抽取语义理解和关联融合的问题,并将其应用于情报研究中,为解决情报分析的智能应用提供工具和方法。[方法/过程]采集网络上新闻报道的内容,采用预训练语言模型方法挖掘学术会议事件信息,提出面向特定领域的信息抽取框架,实现会议名称及其举办时间、地点、出席人、发言人信息的抽取,并进行实际的情报利用研究案例分析。[结果/结论]相较于单一抽取实体的方法,抽取会议核心元素更具有情报关联性和准确性,可以更好地对开源热点事件发现和跟踪监测、目标人物轨迹动向分析等研究提供方法,为情报分析应用和情报研判奠定基础。  相似文献   

19.
[目的/意义]为改变“以刊评文”的学术质量评价方法,本文尝试从文本片段入手开展知识单元粒度的学术质量评价。[方法/过程]首先基于知识单元的描述规则抽取学术文献中的知识单元;其次梳理现有的学术质量评价指标,构建初步的知识单元质量评价体系;然后完善初选的评价指标体系,并根据领域专家意见对待评的知识单元质量进行赋分;最后利用回归分析拟合各量化指标与专家赋分,实现知识单元质量的自动评价。[结果/结论]构建起以形式评价、内容评价和效用评价为核心的三维评价模型,实现了融合领域专家意见的知识质量自动化计量方法,克服了长久以来学术质量评价过度依赖于学术载体的不足,真正将学术评价的单位从知识载体深入到知识内容中。  相似文献   

20.
基于碎片化UGC的知识元抽取研究   总被引:1,自引:0,他引:1  
[目的/意义]在大数据环境下,从海量的碎片化用户生成内容中抽取具有完整语义的知识单元。[方法/过程]文章提出一种基于碎片化UGC的知识元抽取方法,该方法首先借助BTM主题分割方法从UGC中抽取知识要素,而后基于融合TextRank和Glove词向量的K-means方法实现知识要素聚类,最后根据知识要素相关属性和知识要素聚类结果生成对应UGC知识元。[结果/结论]实验结果显示基于碎片化UGC的知识元抽取方法具有一定科学性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号