首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 609 毫秒
1.
[目的/意义]为了解决因微博文本多义性和复杂性导致的谣言检测中语义特征提取不全面的问题,提出了一种结合微博内外多粒度语义的BiLSTM-CNN-ECA模型。[方法/过程]首先,对微博文本从字词句三个粒度级别建模,运用双向长短期记忆网络提取微博内部语义特征,生成事件字向量矩阵和事件词向量矩阵;然后,拼接事件句向量矩阵形成三维文本特征矩阵,输入多尺度卷积神经网络,并行提取微博之间的依赖关系特征;最后,引入高效通道注意力模块赋予通道权重,进行微博谣言检测。[结果/结论]构建的三维文本特征矩阵有机结合了各粒度文本的语义特征贡献,包含更多、更全面的微博语义信息;ECA可有效捕获通道间重要信息,进一步提高了多尺度CNN模型对谣言检测的准确率。  相似文献   

2.
在线健康社区用户信息需求的层级多标签分类研究   总被引:1,自引:0,他引:1  
[目的/意义]用户健康信息需求研究能够发现用户潜在需求,解决用户健康信息盲区,帮助用户实现更好的自我健康管理。研究目标为挖掘识别用户信息需求主题,提取用户特征,促进完善网络社区交互性与多元性发展,为更好地改善健康信息服务提出建议与意见。[方法/过程]针对在线健康社区的母婴群体,提出在线健康社区用户信息需求层级多标签分类模型。通过扎根理论提出在线健康社区用户信息需求主题体系,利用ALBERT对母婴健康需求类数据进行预训练,使用双向GRU与注意力机制构建基础分类器,以此来构建层级多标签分类模型Multi-BiGRU-Attention,实现在线健康社区提问数据的层级多标签分类。[结果/结论]实验对比发现,随着层级的增加,研究提出的模型相比于单层的基础分类器BiGRU-Attention在micro-Precision, micro-Recall, micro-F1等各项指标上均有所提升,说明该模型的层级结构信息能够一定程度上改善模型效果;相比于层级多标签相关模型,在各项指标上均有所提升,说明该模型存在一定的适用性与扩展性。  相似文献   

3.
[目的/意义]构建多源数据融合获得细粒度的用户画像标签,加强和提升服务场景的用户画像识别与精准推荐,对于洞察用户需求、开展群体精准营销、提高用户忠诚度等有着重要的参考意义。[方法/过程]融入服务场景构建多源数据融合的用户画像识别与推荐分析框架,以用户价值模型RFM重构表征用户行为的RFCLS标签,采用LDA模型提取用户资源使用偏好的文本语义标签,继而将用户属性、用户行为和资源使用偏好等多源异构数据汇聚成用户画像标签体系后,选取随机森林模型对不同标签组合展开用户画像识别的模型训练和分类性能评估。[结果/结论]实证研究表明,与单一的数值型或者文本型画像标签体系相比,多源数据融合的用户画像模型提升了用户画像识别和分类的精准度,有效支撑高校图书馆开展更为针对性的营销服务策略和个体精准化服务推荐。  相似文献   

4.
[目的/意义]网络新闻是获取突发事件情报的重要来源之一,提高海量网络新闻中突发事件的识别准确率和分类效果,并减少非突发事件新闻造成的开放集识别问题和降低人工标注非突发事件新闻的成本,这是当前突发事件识别与分类研究的重要课题。[方法/过程]选择BERT预训练模型获得文本的特征表示,融合不同层级之间的语义信息增强文本表示的质量,采用自适应决策边界模型,学习各突发事件类别在高维语义表示空间上的球形最佳决策边界,根据新闻样本的文本表示和各突发事件类别的球形最佳决策边界的欧几里得距离,检测出突发事件新闻并判断突发事件的类别,并在CEC公开数据集和实时爬取的中文新闻数据集CEN上对模型的有效性进行验证。[结果/结论]实验结果表明,本文模型在CEC数据集和CEN数据集上的宏F1值分别为98.46%和95.80%,与基准模型相比,本文模型的宏F1值分别提升了5.15%和19.69%。模型应用展示了提出方法在解决实际问题时的有效性。[局限]未考虑突发事件新闻可能存在多标签的情况。  相似文献   

5.
[研究目的]随着国内智库的不断发展和建设,智库成果越来越多,涉及领域也纷繁复杂。为了方便决策者对所关注问题的查找,以及对问题类型的判断,需要对智库研究成果资源进行有效的数字化管理,本研究旨在研究如何对智库文本成果资源进行有效分类,从而实现智库成果高效系统的数据化管理。[研究方法]针对智库文本成果多为长文本的特点,利用基于Self-Attention的层次结构文本分类模型SHTC(Hierarchical structure model based on self-attention)依次从词、句两个层面对文本语义进行学习,并使用多尺寸卷积层提取关键特征信息获得最终的文档表示,再通过Softmax层进行分类。[研究结论]结果表明,基于Self-Attention的层次结构模型SHTC在智库文本分类任务中准确率达到82.43%,在智库文本分类任务上具有更优的分类效果。  相似文献   

6.
[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。  相似文献   

7.
[目的/意义]提出融合母评论文本信息的评论短文本情感分类模型以提高互联网环境下短文本评论情感分析效果,适应舆情工作中的实际应用需求。[方法/过程]以短视频平台舆情事件的评论数据为实验对象,利用GRU提取母评论文本特征和直接提取评论区特征,分别将这些特征与CNN提取原评论文本特征并行融合进行情感分类。[结果/结论]相较于传统深度学习方法,引入的母评论文本特征使两个数据集的情感分类效果都获得了一定提升,F1值等均分别提升了2%和1%,说明本文提出的特征引入方案能够提升评论短文本的分类效果,为舆情工作中的情感监测实际应用提供了思路,验证了舆情相关理论研究对实际技术应用有借鉴和指导意义。  相似文献   

8.
陈锟  裴雷  范涛 《现代情报》2023,(6):24-34
[目的/意义]针对突发事件分类研究中模态单一或缺失、分类效果不理想等问题,本文提出结合文本和图片特征信息,以多模态融合的方式对突发事件进行分类。[方法/过程]本文提出一种基于多模态融合的突发事件分类模型(Emergency Classification Model with Hybrid Fusion, ECMHF),由BERT联动BiLSTM构成的文本特征抽取分类模型、VGG19为基础的图像特征抽取分类模型、融合文本描述特征和视觉语义特征的多模态融合层加上预测类别输出层组成的多模态分类模型3部分构成主体框架,最后将所有模型的决策层输出分配权重后再融合。[结果/结论]以收集的突发事件新闻数据为实验样本进行实证研究。结果表明,ECMHF模型在所有模型中性能最佳,F1值达到最高的99.072%,比次优模型高出0.51%。加入混合融合策略的ECMHF模型能够有效地识别出突发事件的类别。未来将在更为广泛和多元的突发事件多模态数据集中进行验证。  相似文献   

9.
庞良健  李晗  王庆林  徐新胜 《科技通报》2021,37(10):59-65,70
针对现有的评价方面抽取方法无法充分利用评论文本中字词包含的复杂语义问题,提出了一种融合多层次语义的网络评价方面抽取模型.首先将卷积神经网络(CNN)训练的字符表示与Word2Vec预训练的词向量进行拼接,构建字词融合的特征表示,利用注意力机制对字词融合的特征表示进行重要程度标识,获得融合注意力的特征表示;构建由CNN和双向长短期记忆网络(BiLSTM)组成的混合神经网络,利用CNN的强学习能力提取字、词的局部语义特征信息,利用BiLSTM全局特征提取能力捕捉字、词之间长距离的上下文语义信息,实现多层次语义融合,最后利用条件随机场学习标签之间的约束条件,输出评论文本最优的序列标注结果,并以酒店评论文本为实验数据集,对所提模型与方法进行可行性和有效性验证.结果表明:本模型具有更好的评价方面抽取效果,可以为基于文本的评价研究与分析提供优质的数据源.  相似文献   

10.
[目的/意义]旨在为提升政策文本的自动化处理程度提供参考。[方法/过程]在梳理已有政策本体及其构建方式基础上,提出由词汇语义主导的自下而上的本体构建方法,运用本体构建工具Protégé5.5.0构建科技创新政策文本本体,对部分政策内容进行标注并可视化。[结果/结论]该本体适用于科技创新政策文本的结构化语义抽取,能够在一定程度上揭示科技创新政策的结构化语义特征。  相似文献   

11.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

12.
[目的/意义]围绕图书功用分类问题,提出开展图书功用自动化分类研究,并融合预训练和深度学习方法进行实现方案设计,为图书功用属性揭示和信息组织提供参考。[方法/过程]文章基于功用视角进行图书分类体系调研与数据验证,构建图书功用分类体系框架。在此基础上,融合BERT预训练模型和BiLSTM模型构建图书功用分类模型,并基于大规模数据集进行实验验证。[结果/结论]实验结果显示,模型的准确率达到0.89以上,召回率达到0.87以上,总体效果相对较好,能够较为准确地实现图书功用特征的提取。  相似文献   

13.
[目的/意义]为帮助用户在拥有海量文本信息的问答社区高效率、高质量定位到符合自身需求的信息。[方法/过程]本文提出基于主题特征的问答文本摘要生成模型,该模型融合Word2Vec和SLDA算法多层次表达问答文本语义特征,而后基于图排序的思想,结合MRR冗余控制算法与文本句特征标签,调整句子权重,高效筛选出贴合问题标签的摘要内容。[结果/结论]本文对知乎问答社区多个问题下的问答文本数据进行验证,结果证明该模型具有较高的可行性和有效性。但本文选取了500份回答文本数据进行实证,未来可进一步扩大数据量开展更为充分的验证。  相似文献   

14.
[目的/意义]科技论文是学术界传递和交流知识的重要方式。科技论文评审是对科技论文承载的知识的价值衡量,高效准确的科技论文评审分类预测可以快速判断论文价值,加速有价值的知识传播进程。[方法/过程]本文讨论开放同行评审中自动评审分类方法,利用科技论文语义信息和开放同行评审中的专家评分,分别构建基于传统机器学习和基于深度学习的科技论文文本表示及分类模型,提供自动评审分类结果。[结果/结论]实验结果表明,融合语义信息和评分信息的评审分类模型比单纯依靠评分均值进行评审判断更为有效,以评分+均值为评分信息输入、基于SCIBERT的质量评审分类模型准确率最高,达到90.17%。本文提出的自动评审分类方法具有可用性,准确率较高,可以辅助期刊编辑快速筛选有潜力的科技论文,促进科技论文智能评审的发展。  相似文献   

15.
马达  卢嘉蓉  朱侯 《情报科学》2023,41(2):60-68
【目的/意义】探究针对微博文本的基于深度学习的情绪分类有效方法,研究微博热点事件下用户转发言论的情绪类型与隐私信息传播的关系。【方法/过程】选用BERT、BERT+CNN、BERT+RNN和ERNIE四个深度学习分类模型设置对比实验,在重新构建情绪7分类语料库的基础上验证性能较好的模型。选取4个微博热点案例,从情绪分布、情感词词频、转发时间和转发次数四个方面展开实证分析。【结果/结论】通过实证研究发现,用户在传播隐私信息是急速且短暂的,传播时以“愤怒”和“厌恶”等为代表的消极情绪占主导地位,且会因隐私信息主体的不同而产生情绪类型和表达方式上的差异。【创新/局限】研究了用户在传播隐私信息行为时的情绪特征及二者的联系,为保护社交网络用户隐私信息安全提供有价值的理论和现实依据,但所构建的语料库数据量对于训练一个高准确率的深度学习模型而言还不够,且模型对于反话、反讽等文本的识别效果不佳。  相似文献   

16.
[目的/意义]旨在为提高获取开源军事情报效率提供参考.[方法/过程]对互联网上的开源文本信息进行分析处理,利用基于机器学习的文本分类方法从中筛选出军事类文本信息,并分析文本向量空间模型与分类模型对于开源军事情报提取效果的影响.[结果/结论]文本分类方法具有较高的准确率、召回率、F-score,实现了中文开源军事情报的分...  相似文献   

17.
王松  骆莹  刘新民 《情报杂志》2024,(5):123-131
[研究目的]旨在优化虚拟社区中知识共创价值的识别方法,缓解因信息过载和关联复杂性等导致的高价值性知识资源识别效果不佳的问题。[研究方法]从知识共创的动态协同过程入手,构建集成双粒度语义与异质性网络的知识共创价值识别模型(DGSHAN)。首先利用BERT、Sentence-BERT并行获取词、句双粒度知识单元的语义信息,继而引入CNN、BiLSTM差异化提炼协同知识的局部内核特征与动态时序特征;同时采用HAN处理异质性关联网络,挖掘用户交互下多类型实体与拓扑结构中的关联规律,最后融合知识资源组合和用户行为互动双链路特征,实现知识共创价值的有效识别。[研究结论]经魅族社区Flyme数据验证,该模型的识别准确度、宏F1、加权F1分别为82.16%、73.56%、81.39%,相较于其他基线模型,各评估指标都有显著提高,可以有效提升知识共创价值的识别效果。  相似文献   

18.
程雅倩  黄玮  金晓祥  贾佳 《情报科学》2022,39(2):155-161
【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过 研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通 过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用 词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处 理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果 表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时 较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定 局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。  相似文献   

19.
高亚琪  王昊  刘渊晨 《情报科学》2021,39(10):107-117
【目的/意义】针对当前利用计算机管理图像资源存在图像语义特征表达不足等问题,探索和分析了特征及 特征融合对分类结果的影响,提出了一种提高图像语义分类准确率的方法。【方法/过程】本文定义了四种图像风 格,将图像描述特征划分为三个层次,探究特征融合的特点,寻求能有效表达图像语义的特征。分别采用SVM、 CNN、LSTM 及迁移学习方法实现图像风格分类,并将算法组合以提高分类效果。【结果/结论】基于迁移学习的 ResNet18模型提取的深层特征能够较好地表达图像的高级语义,将其与SVM结合能提高分类准确率。特征之间 并不总是互补,在特征选择时应避免特征冗余,造成分类效率下降。【创新/局限】本文定义的风格数目较少,且图像 展示出的风格并不绝对,往往可以被赋予多种标签,今后应进一步丰富图像数据集并尝试进行多标签分类。  相似文献   

20.
[目的/意义]基于科技文献构建问题—方法矩阵,探索科技文献研究内容新颖性评估方法,辅助科技查新应用。[方法/过程]对科技文献内容进行信息抽取,提取研究问题和方法内容文本并构建问题—方法矩阵。利用LDA模型对科技文献采用的问题与方法进行分类,将科技文献在问题—方法矩阵中定位并可视化。通过设定阈值划分区域,确定待评估科技文献研究问题和方法所在区域,进行新颖性评估分析,并通过实验验证该方法的有效性。[结果/结论]提出的基于问题—方法矩阵的文献新颖性评估方法通过可视化方式不仅有利于辅助科技查新判断,还可服务于创新选题。[局限]基于科技文献的研究问题与方法信息抽取和新颖性评估计算的自动化方法有待进一步研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号