首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需求的文本主题内容的方法,以推动数字人文研究的进一步发展。首先,选取本课题组前期标注的古籍语料数据进行主题类别标注和视图分类;其次,构建融合BERT (bidirectional encoder representation from transformers)预训练模型、改进卷积神经网络、循环神经网络和多头注意力机制的语义挖掘模型;最后,融入“主体-关系-客体”多视图的语义增强模型,构建DJ-TextRCNN (DianJi-recurrent convolutional neural networks for text classification)模型实现对典籍文本更细粒度、更深层次、更多维度的语义挖掘。研究结果发现,DJ-TextRCNN模型在不同视图下的古籍主题推荐任务的准确率均为最优。在“主体-关系-客体”视图下,精确率达到88.54%,初步实现了对古籍文本的精准...  相似文献   

2.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

3.
[目的/意义]衍生性网络健康谣言生成门槛低,周期性强,危害影响深远,是网络健康谣言识别与治理中需要优先解决的重点问题之一,也是重要突破口。[方法/过程]借助深度语义表征和聚合方法,探索衍生性网络健康谣言文本内容的六要素特征;通过结合网络健康谣言的分布式语义特征预训练模型,构建包括六个类别、6287个词汇的网络健康谣言文本内容要素词库;在将健康谣言标题特征、内容文本六要素特征以及主体内容文本特征进行统一的向量空间表示与融合后,构建面向多源文本特征融合的网络健康谣言识别模型。[结果/结论]模型的实证研究表明:与已有的对照模型相比,本文所提出的文本特征融合模型使衍生性网络健康谣言识别的准确率有较好的提升,且丰富的可拓展健康谣言要素词库可为后续的研究提供较好的资源支持。  相似文献   

4.
学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功能识别方法,将任务形式由信息抽取转化为特定形式的标题生成问题。本研究采用构建seq2seq模型和引入注意力机制的方式捕获词汇多层语义信息,最终实现学术文本中问题和方法指代词的生成和获取。实验结果表明,通过应用深度学习方法和标题生成策略,本研究提出的模型能够从摘要中有效识别学术文献的主要研究问题和主要研究方法,并较已有方法在识别效果上有明显提升。  相似文献   

5.
赵洪 《情报学报》2020,(3):330-344
自动文摘是文本挖掘的主要任务之一。相比于抽取式自动文摘,生成式自动文摘在思想上更接近人工摘要的过程,具有重要研究意义。近几年伴随着深度学习方法的发展,基于深层神经网络模型的生成式自动文摘也有了令人瞩目的发展。为了更全面地理解该类方法的思想和研究现状,本文从生成式自动文摘的任务描述入手,梳理了基于RNN (recurrent neural network,循环神经网络)的模型、基于CNN (convolutional neural network,卷积神经网络)的模型、基于RNN+CNN的模型、融合注意力机制的模型和融合强化学习的模型共五大类生成式自动文摘的深度学习方法。这类方法表明,在深层神经网络的训练下,特别是融合注意力机制和强化学习后,摘要效果得以明显提升。在生成式自动文摘研究的未来发展中,除深度学习方法本身的不断应用和改进外,还需关注如何有效实现篇章级语义理解下的摘要、面向不同文本对象特点的摘要和摘要结果自动评价等问题。此外,如何结合传统摘要研究中的成熟方法进一步提高摘要效果,也是一个很有价值的研究方向。  相似文献   

6.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

7.
注疏是对古代典籍注释及再注释而形成的文本,不仅反映注疏者对古籍文本的认知理解,也是后人理解、传承与传播思想与文化的重要基础。利用本体和纳米出版物等语义技术对注疏文本进行知识表示和语义化建模,可以揭示注疏文献中蕴含的知识间的语义关系,并实现注疏文献的语义化出版与再造。为验证注疏知识表示和语义化建模方法的可行性及实用性,本文设计了包含引用关系的阐释本体,并以部分注疏文本为语料,实现了以纳米出版物为独立出版单位的注疏语义化表示与引用关系推断。实验证明,阐释本体可作为单语篇注疏知识单元结构化和跨语篇注疏知识单元关联化的数据模型,助力注疏文献的数据化处理与价值增值。注疏知识的语义化表示路径可以为古籍知识库建设、语义出版和数字化再造提供参考。图6。表5。参考文献41。  相似文献   

8.
[目的/意义]突发公共卫生事件中谣言的迅速传播可能会引发群体性的焦虑和恐慌,识别社交媒体中潜在的谣言传播者,研究及评估影响谣言传播者识别的重要特征,为舆情管控和网络治理提供策略。[方法/过程]提出一种突发公共卫生事件情景下多特征融合的潜在谣言传播者识别模型,首先基于BERT-BiLSTM模型提取微博的语义特征,然后与用户特征、微博特征以及情感特征进行融合,最后基于LightGBM算法构建用户分类模型,并利用SHAP值对模型进行分析。[结果/结论]研究结果表明,融合多特征的突发公共卫生事件谣言传播者识别模型在微博数据集上的准确率能够达到87.94%,说明该模型具有较好的识别效果,提出的4个维度的特征对谣言传播者识别均有贡献,其中文本语义特征对谣言传播者识别准确率的提升最高。  相似文献   

9.
基于结构对Web网页区域分割与语义识别,实现网页语义理解,给出Web多媒体相关文本的定义,并结合其分布特点,采用个体级、区域级、网页级三级分析方法分别进行提取,从而实现Web多媒体相关文本准确提取。  相似文献   

10.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

11.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性.  相似文献   

12.
针对传统的竞争情报分析方法无法实现对目标信息进行深入挖掘分析,获取企业所需的深层情报知识,本文将数据挖掘技术融入竞争情报分析之中,构建了基于数据挖掘的企业竞争情报分析模型.该模型利用竞争情报领域本体指导目标信息的采集、语义分析和信息抽取,实现竞争情报信息的语义组织和存储;并在此基础上利用基于语义的数据挖掘、学习和推理技术,实现竞争情报语义挖掘和智能分析,提升情报分析的深度和广度,获取高质量的深层情报内容.实验结果表明,该模型取得了很好的预期效果,显著提高了情报分析的准确率和效率.  相似文献   

13.
文献推荐服务已经成为数字图书馆的重要知识服务内容之一.本文引入自然语言处理中的文本倾向性分析技术,通过对引证文本的语句语义分析,把语句的语义结构转化为倾向性分析的二元或三元模型,得到引证文本对参考文献的主观评价信息.结合参考文献本身的正文中对其他文献的评论指数,给出了文献推荐度的计算方法,从而实现对文献集中文献的自动分析和推荐服务.实验表明基于文本倾向性分析的文献推荐服务是可以实现的,并具有较高的准确率.在实际应用中还需要扩大词语知识库的规模,并提高语句的语义结构分析、词语语义关系分析等方面的性能.  相似文献   

14.
为了丰富专利分类的网络和文本语义表示,实现两者更有效的语义融合,提高技术融合预测效果,提出基于专利分类序列和文本语义表示的技术融合预测方法。首先,综合考虑专利分类位置及其上下文语境,直接对专利分类序列进行语义表示,提出基于专利分类序列语义表示的技术融合预测方法;其次,根据专利分类在序列中的重要性排序研究专利分类文本分配方法,形成基于专利分类文本语义表示的技术融合预测方法;在此基础上,设计多种特征融合方法,提出融合专利分类序列结构和文本内容语义表示的技术融合预测方法;最后,基于链路预测的理论和方法对提出的多种技术融合预测方法进行定量评价。在无人机领域的实验证实,专利分类序列语义表示模型的效果明显优于其他网络表示学习方法;依据重要性排序的专利分类文本赋予方式优于文本平均分配方式,基于此的专利分类文本语义表示能更好地进行技术融合预测;“SVM (support vector machine)+哈达玛积”的特征融合方法在所有方法中表现最优,较单一方法均有提高。本文提出的方法能够提高技术融合预测的效果,更好地为技术布局、技术研发提供借鉴和参考。  相似文献   

15.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

16.
范涛  王昊  陈玥彤 《情报学报》2022,(4):412-423
地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。  相似文献   

17.
近年来,大量失真健康信息以微信公众号文章的方式在社交平台上广为传播,严重影响了用户对健康知识的获取和利用健康信息做医疗决策的效果。为了抑制失真健康信息的传播,有必要对失真健康信息进行自动化的识别与检测。本文以科普中国、丁香医生等公众号发布的健康类文章和经过辟谣的健康类文章为样本,通过分词、去停用词、语法特征提取和文本分类等步骤对失真健康信息进行识别,并通过分类准确率、精确率、召回率、训练时间等性能指标选出效果最佳的分类器。另外,针对文本分类中“一词多义”和“多词一义”的问题,本文通过LDA (latent Dirichlet allocation)主题分析提取文本的语义特征,进而提出一种“语法+语义”的特征提取方法,经过实验验证,各性能指标比基于语义的特征提取方法以及以往相关模型都有了一定的提升。本文为微信公众号文章中失真健康信息的识别提出了一种新的方法和工具,有利于对失真健康信息开展进一步的监测和治理。  相似文献   

18.
当前科学技术发展表现出越来越明显的交叉融合趋势。知识融合是产生新知识的重要途径。概念形态知识元的融合生成机制是知识创造首先要解决的问题。文章从语义融合视角探索概念知识元的生成机理,首先对语义融合的本质、表征和意义生成机理进行了说明,其次阐明知识元的结构,并提出了概念知识元的内容描述模型,最后提出概念知识元的语义融合框架,揭示了概念知识元融合的实质是构成知识元的内容因子——语义元的关联和重组,阐明了语义元的重组过程,从微观层面解释了知识创造的过程。  相似文献   

19.
随着互联网医疗的快速发展,数字经济和智能经济成为未来必然发展趋势,医学知识的语义化和规范化是实现智慧医疗和数字医学的重要手段。但现阶段较为成熟的医学本体仅仅描述了一些既定的静态知识,无法揭示医学知识之间的动态关联。因此,以知识表示和知识组织为出发点,构建符合叙事性文本特征的医学知识结构化表示方法具有十分重要的意义。本文在梳理叙事学理论、事件知识表示的基础上,按照是否具有叙事性特征,将医学文本分为叙事性文本和概念性文本;然后,分别对概念性医学文本和叙事性医学文本进行语义建模与表示,构建基于事件本体的医学知识本体模型;最后,根据本文提出的概念模型,实现SARS-CoV-2病毒入侵过程的语义结构化表示。初步标注的实验结果表明,将事件本体模型迁移到医学文本语义结构化描述中,有助于实现医学文本的深层次表示和知识发现,能更好地描述医学知识之间的动态关联,更好地表征医学对象在时间和空间的动态发展特点。  相似文献   

20.
基于领域本体实现Web文本挖掘研究   总被引:1,自引:0,他引:1  
阮光册 《图书情报工作》2011,55(18):116-120
为弥补改进传统Web文本挖掘方法缺乏对文本语义理解的不足,采用本体与Web文本挖掘相结合的方法,探讨基于领域本体的Web文本挖掘方法。首先创建Web文本的本体结构,然后引入领域本体“概念-概念”相似度矩阵,并就概念间关系识别进行描述,最后给出Web文本挖掘的实现方法,发现Web文本信息的内涵。实验中以网络媒体报道为例,通过文本挖掘得出相关结论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号