首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
马超  李纲  陈思菁  毛进  张霁 《情报学报》2020,39(2):199-207
为有效识别旅游产品在线评论中多模态数据对在线评论感知有用性的影响因素,探究基于用户生成内容的在线旅游产品优化方法,从数据融合分析角度出发,对旅游产品在线评论中的多模态数据进行特征融合。以旅游产品的真实在线评论数据作为研究对象,进行描述性统计分析,同时使用机器学习和深度学习方法,进行文本向量嵌入与图片内容识别,融合图文特征向量,构建多模态在线评论有用性分类模型,进行模型测试。实验结果表明,与仅包含文本或仅包含图片的单模态评论相比,图文结合的多模态评论能够更好地进行在线评论有用性预测,结合评论激励机制,提高在线评论质量,能够充分发挥用户生成内容潜在价值,为产品提供者提供优化思路,为产品消费者提供决策支持。  相似文献   

2.
[目的/意义]当前网络舆情事件中网民情感分析研究多聚焦于文本、文本结合图片和视频等内容,缺乏针对图片的探讨。同时,视觉情感分析中多视觉语义特征融合缺乏相应的理论指导。[方法/过程]文章借鉴多模态融合思想,以此作为多视觉语义特征融合的理论指导,按照特征层融合、中间层融合、决策层融合和混合融合策略,以在ImageNet数据集中预训练的VGG19模型和Xception模型为基础,设计对应的网络舆情视觉情感分析模型。[结果/结论]文章将提出的模型在网络舆情图片数据集中展开实证研究,并同基线模型做对比。实验结果表明我们提出的基于决策层融合的网络舆情视觉情感分析模型表现最佳。为增强模型的可解释性,本文对网络舆情视觉情感分析模型中卷积层的输出进行了可视化分析。  相似文献   

3.
王震宇  朱学芳 《情报学报》2023,(12):1477-1486
为了减少虚假新闻给社会带来的负面影响,虚假新闻检测一直是自然语言处理中的一个重要领域。现有多模态虚假新闻检测方法通常使用预训练模型充当特征提取器,但是这些方法存在以下不足:(1)预训练模型参数在模型训练过程中总是会冻结,但预训练模型并不完美;(2)基于CNN (convolutional neural network)的图像特征提取器结构通常比基于Transformer的文本特征提取器结构更加复杂,图像特征通常被提前存储,使得这些模型的缺点被忽略。为此,本文提出基于端到端训练的多模态Transformer模型,通过使用视觉Transformer代替CNN提取图像特征,统一了不同模态的特征提取过程,利用共同注意力模块实现图像特征和文本特征交叉融合,并且在3个公开数据集上进行了对比实验。实验结果表明,本文模型性能超越了其他基线模型。  相似文献   

4.
基于本体的汉语领域命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点.本文将命名实体分为两大类:常规命名实体和领域命名实体.基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法.该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别.实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%.同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用.  相似文献   

5.
本文概述了大数据环境下多模态信息融合的开发和利用,揭示了大数据背景下多模态信息的内涵、多模态 信息融合的定义及其实现知识服务新的增值点,阐述了关于多模态信息融合向知识服务细化延伸的几点思考,进一步 剖析了基于多模态信息融合的知识服务在满足用户深层次信息需求、实现知识服务创新与推动信息服务机构进一步发 展的意义。  相似文献   

6.
通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。文章基于SikuBERT预训练模型,构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物命名实体的先秦典籍语料,对SikuBERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证SikuBERT预训练模型的识别性能。结果表明:基于SikuBERT经训练所构建的动物命名实体识别模型效果最优,十折交叉测试的平均调和平均值(F1)为85.46%,最高一次达86.29%,应用于《史记》动物命名实体识别准确率达91.6%。  相似文献   

7.
命名实体分类和识别是自然语言处理中的关键任务,其识别效果将会影响许多下游任务的性能。文章基于现有知识图谱,提出图情领域九大类实体,构建适用于图情领域实体识别的LISERNIE+BiGRU+CRF模型。其中,LISERNIE模型的训练以ERNIE为基础,增加了注入图情领域知识的预训练阶段训练。通过开展广泛的实验,发现LISERNIE+BiGRU+CRF模型能有效识别出命名实体,且在小规模标注数据集上具有明显的性能优势;当应用到后续的开放域关系抽取实验时,其准确率远高于CORE系统,可为进一步构建知识图谱、问答系统、机器阅读等提供模型和数据支撑。  相似文献   

8.
针对现有的命名实体识别方法不能很好地处理专业领域特定命名抽取的问题,提出一种基于启发式规则的专业命名识别方法。以中文文本中化学物质命名为研究对象,分析其领域特征及统计语言特征,建立适用于化学领域文献命名识别的启发式规则,为专业领域的命名实体识别提供新的解决方案。对比实验证明本文的方法能有效提升专业命名识别的效率。  相似文献   

9.
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。  相似文献   

10.
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。  相似文献   

11.
命名实体识别为推动智能系统建设和科技情报服务起到重要作用.针对领域实体识别存在的标注成本高、识别准确率不高问题,从引入通用领域信息、削减孤立点影响的角度出发,设计基于语义相似度与不确定性度量的主动迁移学习方法.该方法结合预训练迁移学习模型来提高分类准确性,通过融合主动学习采样策略来减少标注成本.利用金融科技和通用领域语...  相似文献   

12.
介绍命名实体识别的基本概念,分析两种命名实体识别的基本方法:基于规则的命名实体识别方法和基于统计的命名实体识别方法,并以最大熵模型为理论基础,对中文菜名识别进行实证研究。根据中文命名实体的特点,设计6种特征模板。实验结果表明,在简单特征模板的基础上增加标注特征能有效提高命名实体的识别效果。对改进识别效果有用的特征依次为:标注特征、词性组合特征、后向词性依赖特征和词形特征。  相似文献   

13.
命名实体识别是自然语言处理领域的基础性工作,旨在从非结构化文本中识别出具有特定意义的实体并分类,在多种自然语言处理任务中发挥重要作用。由于中文命名实体没有明显的边界标记,且存在歧义和嵌套等问题,其识别过程比英语等其他语言要更为复杂。近年来,深度学习技术发展迅速,在中文命名实体识别中得到广泛应用,并已成为主流方法。系统梳理中文命名实体识别中深度学习技术的研究进展,重点从文本表示、特征编码、预测解码3个方面,对比分析代表性工作的关联性和关键技术,讨论研究中存在的问题、现有解决方案和未来的研究方向。  相似文献   

14.
科研项目申请书蕴含丰富的科学知识,被广泛用作科技情报分析的基础数据,其中重复检测、分析挖掘等智能处理工作需要在明晰申请书结构功能的前提下展开。因此,构建一种基于多阶段分类的科研项目申请书结构功能识别模型。首先,对申请书进行预处理,识别申请书的正文内容及其包含的多模态要素,并将文本段落规范化;之后,基于BiLSTM-Attention模型,依次区分申请书中的章节标题与正文文本,基于标题识别正文文本的一级功能,进而识别申请书的细粒度结构功能。实验结果显示,所提方法的准确率与召回率分别达到93.7%和93.1%,该方法能较好支撑科研项目申请书的结构化解析,也能为其他类型学术文本的结构功能识别提供参考。  相似文献   

15.
[目的/意义]衍生性网络健康谣言生成门槛低,周期性强,危害影响深远,是网络健康谣言识别与治理中需要优先解决的重点问题之一,也是重要突破口。[方法/过程]借助深度语义表征和聚合方法,探索衍生性网络健康谣言文本内容的六要素特征;通过结合网络健康谣言的分布式语义特征预训练模型,构建包括六个类别、6287个词汇的网络健康谣言文本内容要素词库;在将健康谣言标题特征、内容文本六要素特征以及主体内容文本特征进行统一的向量空间表示与融合后,构建面向多源文本特征融合的网络健康谣言识别模型。[结果/结论]模型的实证研究表明:与已有的对照模型相比,本文所提出的文本特征融合模型使衍生性网络健康谣言识别的准确率有较好的提升,且丰富的可拓展健康谣言要素词库可为后续的研究提供较好的资源支持。  相似文献   

16.
知识聚合是数智时代文献资源开发利用的模式转向和创新路径。本文通过实地调研发现,新四军苏浙军区红色文献资源呈现分层、分块的多模态繁荣格局,而主体多元、标准不一、关联融合不充分、线上与线下交互不足等问题则制约其整体记忆价值与文化价值的实现。为此,本文结合红色文献以“时间—空间—事件或人物”为主的资源结构,从资源采集与加工、本体建构、关联聚合、知识挖掘四个层次设计基于语义关联的多模态红色文献资源知识聚合模式,并以粟裕将军及其事迹为例,进行元数据设计、本体模型构建、生平事迹GIS可视化等实证研究,以期为数智时代多模态红色文献资源面向知识发现与服务的深度开发提供参考。  相似文献   

17.
数字人文概念的提出扩展了古文自动化处理的内涵与外延,实现古籍文本语义的深层理解成为首要任务。因此,本文重点探索古籍句读识别任务中的语义增强模式,以提升主流BBiC模型(BERT-BiLSTM-CRF)表征古籍文本语义的能力。本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征,提出引入细粒度文本知识的BBiC-EK (BBiC-external knowledge)模型与融合文本结构特征的BBiCC-EK模型(BBiC-CNN-EK),并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置,多方位探究模型提升效果。研究结果表明,采用BBiC-EK模型中的最优外部知识组合模式,相较于基线BBiC模型能将句读识别准确率提升0.83个百分点;进一步融合CNN并探究最优模型结构下的BBiCC-EK (Se)模型能将BBiC模型的识别准确率提升1.36个百分点。本文通过融合结构特性的语义增强技术,实现了古籍文本句读识别准确率的提升,为古籍文本的自动化语义理解提供了新思路。  相似文献   

18.
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。  相似文献   

19.
目前,专利数量快速增长,单纯依靠人工进行专利查阅,很难及时获取专利中的创新资源。实体作为知识的一种,是目前最能直接体现专利的知识。实体识别除了专利独有的技术词、功效词抽取,还有在其他领域通用的命名实体等信息的提取。并且随着计算机技术的创新,大量学者将现代科学技术方法投入到专利文本知识挖掘中。因此,如何从海量专利文本中挖掘有价值的知识成为专利领域研究的新契机。旨在总结专利文本实体种类以及其抽取方法,并从研究对象、技术过程等角度来阐述现状,探索专利文本实体识别工作的新方向。  相似文献   

20.
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号