首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
新闻文本分类是长文本分类的典型问题,因此提取词与词之间的关系特征就尤为重要.提出了基于双向Transformer编码表示的预训练模型(Bidirectional Encoder Representations from Transformers, BERT)和双向长短时记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)以及注意力机制的对抗训练分类模型(BBA-AT).将预处理新闻文本数据经过BERT进行训练得到词嵌入编码,在训练后的词向量级别上进行扰动达到数据增广的效果,以此来进行对抗训练,之后通过双向长短时记忆网络对数据集进行编码提取双向语义表征.本文提出的BBA-AT模型F1值在TNEWS数据集上比BERT模型提升了1.34%.  相似文献   

2.
针对静态词向量方法不能很好地解决一词多义,长短时记忆网络参数量较多、训练时间过长等不足,提出将ALBERT预训练模型、双向门控循环单元、多头注意力机制融合在一起,构建了一个微博文本情感预测模型.首先,通过ALBERT模型获取文本动态词向量;然后采用双向门控循环单元提取文本特征;接着引入多层注意力机制捕获文本序列中的重要信息;最后,通过Softmax进行情感分类.实验结果表明:所提出的模型与传统模型相比,能有效提取文本的特征,与静态词向量相比,模型准确率提升1.76%,与长短时记忆网络相比,参数数量下降25%,训练效率提升20%,有较好的实用价值.  相似文献   

3.
为解决海量数据导致用户信息过载问题,通过分析人民网、新浪网等网站的新闻网页数据,将传统方法与深度学习方法相结合,提出基于特征融合、CNN和GRU的多文档摘要方法(M-C-G)。首先对30种不同主题的新闻网页进行数据清洗,使用word2vec工具训练词向量模型,根据多种特征计算得到初步摘要结果;然后把8.3万条搜狐新闻语料文本数据输入带有CNN和GRU的Seq2Seq模型上训练;最后把初步摘要结果输入模型进行测试,得到最终摘要结果。实验结果表明,在ROUGE评测体系中采用该方法比现有方法准确率至少提高约2%,可有效帮助用户寻找有价值的文本信息。  相似文献   

4.
传统的微博用户人格分析将人格分为五类,但未考虑人格类别之间潜在的关联性。为此基于多标签集成分类方法(RAkEL)进行改进,构建RAkEL-PA模型。RAkEL-PA模型使用标签集合中不同的随机子集训练相应的Label Powerset(LP)分类器,然后集成所有分类结果作为最终分类结果。在微博用户文本消息数据上进行实验,结果表明,RAkEL-PA模型的两个不同策略对用户人格分类准确率较高。RAkEL-PA模型充分考虑多个人格之间的相关性,以提高用户人格分类鲁棒性。  相似文献   

5.
基于CNN的迁移模型用于铝型材表面瑕疵分类识别研究中,未考虑所提取的瑕疵特征图中冗余信息对分类性能的影响.针对该问题,提出了一种基于集成迁移学习的铝型材瑕疵分类方法,首先基于CNN的传统迁移模型自动获取铝型材瑕疵特征,再利用多尺度膨胀卷积对所提取的铝型材瑕疵特征进行稀疏采样,获取多组差异化的瑕疵特征,通过训练生成一组具有差异化的CNN分类器,并将其集成.实验结果证明,该方法相对于传统基于CNN的迁移模型,在铝型材瑕疵分类上,具有更高的分类准确率,性能更优.  相似文献   

6.
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.  相似文献   

7.
随着互联网的迅猛发展,网络上的文本越来越多,对其进行有效的分类,能方便人们快速获取到有用的信息。但在实际应用中,往往只需针对特定领域的文本进行分类,例如,林业文本分类。对于文本分类这一任务,现在有大量的神经网络方面的优秀模型可供使用,但这些模型常常需要耗费大量的时间、资源进行训练,而朴素贝叶斯这个模型虽然简单,但是,其分类效果已经基本满足工程所需。在原始朴素贝叶斯的基础上,引入类别关键词的因素,能够进一步提升分类的效果。  相似文献   

8.
朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型,但是它的独立性假设属性使其无法表示现实世界属性之间的依赖关系,从而影响它的分类性能。这里提出一种改进的基于贝叶斯定理的文本分类模型——“树桩网络(Stump Network)”,并将该方法与朴素贝叶斯文本分类器和TAN(Tree Augmented Naive Bayes)文本分类器进行实验比较,结果表明,在大多数数据集上该文本分类方法具有较高的分类正确率。  相似文献   

9.
针对利用当前神经网络模型进行中文位置语义解析存在多义词解析效果差、泛化能力差等问题,提出一种基于BERT-BiLSTM-CRF模型的中文位置语义解析方法.首先利用BERT预训练模型对中文位置信息进行预训练,获取所有层中的上下文信息,增强中文位置信息的语义表征能力,然后通过BiLSTM模型提取向量特征信息,最后通过CRF...  相似文献   

10.
提出一种基于中心核对齐的模糊支持向量机(Centered kernel alignment-based fuzzy support vector machine, CKA-FSVM)算法并应用于中文农业文本分类.首先通过爬虫技术获取2 246个中文农业文本并进行数据预处理,然后进行文本向量化和特征处理,最后构建分类器模型,实现中文农业文本的自动分类.实验结果显示CKA-FSVM算法在中文农业文本分类上的平均准确率为91.69%,平均F1值为94.96%,比5个对比算法中的最好结果分别提升了0.04和0.24个百分点,表明该模型在中文农业文本分类领域具有较好的性能.  相似文献   

11.
研究了入侵检测系统中海量数据分类的问题.讨论了深度信念网络(DBN)的原理,提出了基于DBN的入侵检测模型.DBN由多层无监督的限制玻尔兹曼机(RBM)网络和一层有监督的反向传播(BP)网络构成.该入侵检测模型采用一种快速、贪婪的方法对DBN网络进行预训练,利用对比分歧算法逐层训练每一个RBM网络;然后,利用有监督的BP算法对整个DBN网络进行微调,并同时对RBM网络输出的低维特征进行入侵数据分类.基于KDD CUP 1999数据集的实验结果表明,使用3层以上的DBN模型分类效果优于自组织映射和神经网络方法.因此,DBN是一种有效且适用于高维特征空间的入侵检测方法.  相似文献   

12.
农业文本分类旨在对主流的农业信息网抽取的文本数据集进行分类.在样本充足的情形下,经典的支持向量机方法能取得较好的效果,然而在样本较少或者样本矩阵很稀疏的情形下效果较差.提出了一种基于特征族群语义扩散核(它是语义扩散核的一种)和支持向量机的半监督农业文本分类方法.该方法在经典的支持向量机方法基础上结合特征族群语义扩散核,使得农业文本分类准确率得到一个显著的提升,在训练集样本数量只有原来一半的数量情况下预测原来的测试样本,预测准确率几乎与原来的相同.  相似文献   

13.
现有评论文本推荐方法多使用静态词向量技术获取评论嵌入,但单词多义性会对语义理解产生偏差,且特征拼接策略无法平衡用户和商品特征对推荐结果的影响.为此,提出了基于评论文本的自适应特征提取推荐模型.该模型使用动态词嵌入预训练模型BERT解决多义性问题,结合Bi-GRU与注意力机制的双向特征提取增强特征表达能力,并以自适应特征...  相似文献   

14.
文本情感分析通过提取文本特征,根据文本中的情感倾向进行分类.研究表明,递归神经网络和卷积神经网络模型具有良好的性能.为提高文本情感分类性能,提出一种融合注意力和比较增强学习机制的混合网络情感分析模型,用比较增强学习机制进行分类来替代大量的复杂计算.该模型通过嵌入层向量化后,分别用CNN和双向门控循环单元提取不同特点的文...  相似文献   

15.
将卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)相结合,提出一种基于注意力机制的Att-CN-BiLSTM中文新闻文本分类模型.模型通过注意力机制有效融合了CNN层和BiLSTM层提取的新闻文本语义特征.在THUCnews新浪新闻数据集上与CNN、BiLSTM及其改进模型进行对比实验,模型分类准确率达到98.96%,精确率、召回率和F1值指标也都优于对比模型,实验结果表明Att-CN-BiLSTM模型可以有效提升中文新闻文本分类效果.  相似文献   

16.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

17.
由于文本表示直接影响文本分类的效果,该文提出了一种有监督局部保持索引的文本表示方法.该方法利用Jaccard系数确定同一类别中文本之间的相似性,找出样本对应在低维空间中的文本表示.采用K近邻分类器在Reuters-21578数据集上进行训练和测试.实验结果表明,有监督保局索引方法在文本表示上更有优势.  相似文献   

18.
农业短文本中包含词数较少,导致语义获取不充分和分类效果下降。利用 Attention 机制加强关键词在分类时的权重,并结合 BiLSTM 设计 LSTM-Attention 模型。对 30 000 份原始数据经过中文分词、句法分析、文本向量化后,将 LSTM-Attention 模型训练成一个 LSTM-Attention 分类器,解决分类器对待分类文本数据敏感的问题。利用 30 000 份标准数据和加 30%干扰信息的复杂数据测试分类器分类效果,结果表明,LSTM-Attention 模型分类正确率达 98.59%,比传统 LSTM 模型高 3.72%,比 BiLSTM 模型高 1.61%,说明使用 BiLSTM 结 合 Attention 机制能够有效提升农业短文本分类效果。利用不同测试数据对 LSTM-Attention 分类器测试发现,LSTM-Attention 分类器具有良好收敛性,其分类效果不依赖于分类数据特征,分类效果稳定性佳。  相似文献   

19.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

20.
为确定歌词隐含的情感主题对音乐分类的作用,在传统主题模型中融入情感、语义元素,定义基于情感主题的音乐分类标准并进行音乐分类。结合文本情感词典、Word2vec词向量空间,将主题模型的基础主题进一步归类为情感主题,并通过爬取网易云音乐歌曲信息进行模型训练及测试。实验证明,该模型具有较好的分类效果,对音乐情感分类平均准确率达到80%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号