首页 | 本学科首页   官方微博 | 高级检索  
     

基于主题模型的文本分类算法性能比较SSCI
引用本文:王万起,田中雨,董兰军. 基于主题模型的文本分类算法性能比较SSCI[J]. 高校图书馆工作, 2022, 42(2): 41-46. DOI: 10.3969/j.issn.1003-7845.2022.02.009
作者姓名:王万起  田中雨  董兰军
作者单位:辽宁工程技术大学 辽宁阜新 123000,中国科学院大学 北京 100190
摘    要:文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务。同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果。从总体上看,通过“同质集成”集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了“全局最优”。

关 键 词:文本分类  集成学习  算法比较  F值  主题模型

Performance Comparison of Algorithm for Text Classification Based on a Topic Model
Wang Wanqi,Tian Zhongyu,Dong Lanjun. Performance Comparison of Algorithm for Text Classification Based on a Topic Model[J]. Library Work In Colleges and Universities, 2022, 42(2): 41-46. DOI: 10.3969/j.issn.1003-7845.2022.02.009
Authors:Wang Wanqi  Tian Zhongyu  Dong Lanjun
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号