首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴于此,采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对互联网上流传广泛的健康信息文本进行自动分类,识别其中的虚假健康信息。实验中,深度网络模型比传统机器学习模型性能提高10%,融合Word2vec的深度神经网络模型比单独的CNN或Att-BiLSTM模型在分类性能上提高近7%。BERT模型表现最好,准确率高达88.1%。实验结果表明,深度学习可以有效识别虚假健康信息,并且通过大规模语料预训练获得的语言表征模型比基于词向量的深度神经网络模型性能更好。  相似文献   

2.
HMM、CRF等机器学习算法在中文实体抽取任务上存在大量依靠特征提取及准确率低的缺陷,而基于BiLSTM-CRF、BERT等深度神经网络算法在中文实体识别准确率高,但BiLSTM模型依赖大规模标注数据,BERT存在参数量大、效率低等问题。该研究提出了基于ALBERT-Attention-CRF模型进行中文实体抽取的方法。首先将glove、Word2vec等静态词向量替换为ALBERT预训练模型字向量,可有效解决分词错误、数据稀疏、OOV、过拟合以及一词多义等问题;然后采用ALBERT作为编码层并对其输出利用Attention机制捕获上下文语义特征;最后结合CRF作为解码层输出实体正确标签,摒弃主流BiLSTM-CRF模型,最终在《人民日报》数据的测试集上取得了理想的效果。试验结果表明,该方法有助于提升通用中文实体识别的准确率和效率,其有效性也得到了较好的验证。  相似文献   

3.
弹幕是最近比较流行的在线视频评论方式,因其内容为自发用户发出,可能带有大量的不和谐性,因此如何识别弹幕中的中文文本内容,文中使用了命名实体识别方法,针对弹幕文本规范化处理和研究,通过采用 Word2vec 方法进行词向量训练,以期望达到合理识别的效果。  相似文献   

4.
新闻文本分类是长文本分类的典型问题,因此提取词与词之间的关系特征就尤为重要.提出了基于双向Transformer编码表示的预训练模型(Bidirectional Encoder Representations from Transformers, BERT)和双向长短时记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)以及注意力机制的对抗训练分类模型(BBA-AT).将预处理新闻文本数据经过BERT进行训练得到词嵌入编码,在训练后的词向量级别上进行扰动达到数据增广的效果,以此来进行对抗训练,之后通过双向长短时记忆网络对数据集进行编码提取双向语义表征.本文提出的BBA-AT模型F1值在TNEWS数据集上比BERT模型提升了1.34%.  相似文献   

5.
将卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)相结合,提出一种基于注意力机制的Att-CN-BiLSTM中文新闻文本分类模型.模型通过注意力机制有效融合了CNN层和BiLSTM层提取的新闻文本语义特征.在THUCnews新浪新闻数据集上与CNN、BiLSTM及其改进模型进行对比实验,模型分类准确率达到98.96%,精确率、召回率和F1值指标也都优于对比模型,实验结果表明Att-CN-BiLSTM模型可以有效提升中文新闻文本分类效果.  相似文献   

6.
查询扩展是信息检索领域重要研究内容。为了解决信息检索过程中用户提交查询时描述不准确以及查询词不匹配的问题,提出一种基于Word2vec的语义查询扩展方法。使用分布式神经语言概率模型Word2vec训练低维词向量,选取扩展词候选集,利用面向扩展词的查询向量生成方法过滤候选集,使选取的扩展词能更有效地体现整个查询的语义及语法相关性。实验结果表明基于Word2vec的语义查询扩展方法使查全率及查准率均有提高,因此该方法能很好地应用于查询扩展领域。  相似文献   

7.
针对现有的数字化档案多标签分类方法存在分类标签之间缺少关联性的问题,提出一种用于档案多标签分类的深层神经网络模型ALBERT-Seq2Seq-Attention.该模型通过ALBERT(A Little BERT)预训练语言模型内部多层双向的Transfomer结构获取进行文本特征向量的提取,并获得上下文语义信息;将预训练提取的文本特征作为Seq2Seq-Attention(Sequence to Sequence-Attention)模型的输入序列,构建标签字典以获取多标签间的关联关系.将分类模型在3种数据集上分别进行对比实验,结果表明:模型分类的效果F1值均超过90%.该模型不仅能提高档案文本的多标签分类效果,也能关注标签之间的相关关系.  相似文献   

8.
针对利用当前神经网络模型进行中文位置语义解析存在多义词解析效果差、泛化能力差等问题,提出一种基于BERT-BiLSTM-CRF模型的中文位置语义解析方法.首先利用BERT预训练模型对中文位置信息进行预训练,获取所有层中的上下文信息,增强中文位置信息的语义表征能力,然后通过BiLSTM模型提取向量特征信息,最后通过CRF...  相似文献   

9.
为确定歌词隐含的情感主题对音乐分类的作用,在传统主题模型中融入情感、语义元素,定义基于情感主题的音乐分类标准并进行音乐分类。结合文本情感词典、Word2vec词向量空间,将主题模型的基础主题进一步归类为情感主题,并通过爬取网易云音乐歌曲信息进行模型训练及测试。实验证明,该模型具有较好的分类效果,对音乐情感分类平均准确率达到80%。  相似文献   

10.
密码创建规则中包含多种多样的个人身份信息组合方式,不仅文法结构规范特殊,而且语义内容丰富.对于文本处理方法,传统的基于概率上下无关文法模型会导致文本特征表示稀疏、语义信息或丢失的问题,因此提出利用深度学习DNN算法.通过对个人身份信息数据进行特征提取,构建语义分类表示的深度神经网络,并为该模型设计训练方法来进行广泛的训练.最后通过实验表明深度学习DNN算法能够提高个人身份信息语义识别的性能,在一定程度上优于已有的一些密码攻击方法.  相似文献   

11.
针对静态词向量方法不能很好地解决一词多义,长短时记忆网络参数量较多、训练时间过长等不足,提出将ALBERT预训练模型、双向门控循环单元、多头注意力机制融合在一起,构建了一个微博文本情感预测模型.首先,通过ALBERT模型获取文本动态词向量;然后采用双向门控循环单元提取文本特征;接着引入多层注意力机制捕获文本序列中的重要信息;最后,通过Softmax进行情感分类.实验结果表明:所提出的模型与传统模型相比,能有效提取文本的特征,与静态词向量相比,模型准确率提升1.76%,与长短时记忆网络相比,参数数量下降25%,训练效率提升20%,有较好的实用价值.  相似文献   

12.
为了准确而快速地识别出图像中人体的某种行为特征,提出了一种全新的三层自动编码器与PNN概率神经网络结合的网络模型。把人体行为的关键帧从包含10种人体行为的视频库中提取出来,用背景减除法提取人体轮廓图并进行二值化图像处理,根据时间序列叠加轮廓图,组成含有10个特征轮廓的数据库,随后将特征轮廓数据在自动编码器中编码,编好码的特征数据随即进入概率神经网络进行训练学习。将训练好的神经网络对这10种人体行为进行准确识别。实验结果表明,经过自动编码器处理后的人体特征进行PNN神经网络识别,比单纯用BP神经网络识别准确率提高5%以上,由此证明该方法有效可行。  相似文献   

13.
利用深度学习方法进行情感分析时,将文本作为一个整体进行编码,缺乏对表情符号与情感词的有效关注。而传统基于词典的方法则过分依赖于情感词典与判断规则的质量,不能充分考虑文本深层语义关系。针对该问题,构建融合表情符号与情感词的自注意力模型。通过BLSTM训练得到情感符号,并与文本特征向量融合,同时引入结构化自注意力机制识别文本中不同情感符号的情感信息。在NLPCC2014和微博公开语料数据集上的实验表明,相较传统情感分析方法,该模型可有效提高情感分类准确率。  相似文献   

14.
为解决海量数据导致用户信息过载问题,通过分析人民网、新浪网等网站的新闻网页数据,将传统方法与深度学习方法相结合,提出基于特征融合、CNN和GRU的多文档摘要方法(M-C-G)。首先对30种不同主题的新闻网页进行数据清洗,使用word2vec工具训练词向量模型,根据多种特征计算得到初步摘要结果;然后把8.3万条搜狐新闻语料文本数据输入带有CNN和GRU的Seq2Seq模型上训练;最后把初步摘要结果输入模型进行测试,得到最终摘要结果。实验结果表明,在ROUGE评测体系中采用该方法比现有方法准确率至少提高约2%,可有效帮助用户寻找有价值的文本信息。  相似文献   

15.
在情感分析领域,仅依靠文本等单一模态进行情感分析,限制了从多模态数据中提取多样化特征的能力,限制了情感分析结果的准确度和鲁棒性。为此,提出了融合音频分析网络和文本分析网络的多模态情感分析方法。其中,利用预训练卷积神经网络(CNN)和迁移学习技术进行基于Mel频谱图的音频情感分类,通过改进的XLNet模型执行歌词文本的特征提取和情感分类任务。CNN和XLNet输出包含概率权重和不同情感值的情感预测矩阵,最后使用堆叠集成方法合并不同模态的输出结果,完成多模态情感分类。在自建民族音乐数据集的消融实验证明,多模态方法具有良好的互补性,在情感识别任务中的性能显著优于单模态方法。公开数据集结果表明,所提方法的分类准确度达到83.75%,优于其他先进方法。  相似文献   

16.
针对文本生成图像任务中文本信息与生成图像的语义一致性,以及图像细节模糊、图像要素空间搭配合理性问题,提出了融合BERT文本编码模型和AttnGAN生成对抗网络模型的文本生成图像方法。首先,在文本与图像语义一致性训练中,借助预训练BERT模型对文本进行句、字级别的特征编码,充分利用其在NLP任务中的优秀文本编码与强泛化能力深度匹配文本语义和图像区域的特征一致性;然后,在图像生成网络的第一阶段图像生成模块之前添加空间注意力模块,提高最终生成图像的语义一致性和空间位置的布局合理性。融合优化后的模型所生成的图像相比原AttnGAN模型,IS指标提升了0.17,FID指标降低了1.15,整体视觉效果更加细腻逼真,模型成功地在阿里天池服装数据集上应用,表明其具有良好的跨领域生成能力。  相似文献   

17.
现有特征选择算法往往只能处理简单的拓扑结构图形,对复杂的拓扑结构图形无能为力,为此选择Structure2vec算法对网络欺诈风险进行研究。在梳理相关文献基础上,对Structure2vec的数学原理进行分析,给出其对应的卷积神经网络模型;选择网络用户的信用历史、身份特质、行为偏好、履约能力和社会关系等5种类型特征数据,构建Stucture2vec关系图;利用Structure2vec算法编写Python程序,对样本数据进行训练,获得模型;利用测试数据对模型进行测试,获得特征向量和对应的风险评估值。结果表明,利用Structure2vec算法对网络欺诈风险进行特征选择和评估,效果优于一般卷积神经网络。  相似文献   

18.
为弥补目前国内学者只做单一算法研究且语料单一的缺陷,使用Word2vec词向量模型结合支持向量机(SVM)、卷积神经网络(CNN)和长短期记忆网络(LSTM)3种不同分类算法,研究了不同中文文本分类问题,包括微博语料的多维细粒度情感分类、酒店评价的倾向性分析和新闻文本的主题分类。将3种分类模型在不同文本中的分类效果进行对比,结果显示这3种算法对于不同的中文分类效果各有不同:不同维度的词向量对准确率等评价指标影响很大;支持向量机模型更适合于细粒度的微博情感分类;卷积神经网络、长短期记忆网络算法更适合于噪声小、文本长且规范的新闻主题分类任务。分类粒度会对算法准确性产生影响,粒度越细、任务越复杂,算法准确性越低。  相似文献   

19.
目的:针对传统长短时记忆神经网络参数量较多、训练时间过长、在并行处理上存在劣势等不足,提出一种结合多头注意力机制与双向门控循环单元的微博文本情感预测模型。方法:对文本进行预处理,加入位置信息进行词向量化,采用双向门控循环单元提取文本特征,引入注意力机制关注文本序列中的重要信息构建微博文本情感预测模型。结果:本研究提出的模型与传统模型相比,训练时间较短,预测精度更高。结论:融合多头注意力机制和双向门控循环单元的情感预测模型能有效提取文本特征,提高模型预测精度。  相似文献   

20.
词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号