首页 | 本学科首页   官方微博 | 高级检索  
     

文本分类相似度模型和概率模型的实现与比较*
引用本文:刘华. 文本分类相似度模型和概率模型的实现与比较*[J]. 现代图书情报技术, 2006, 1(4): 53-55
作者姓名:刘华
作者单位:暨南大学华文学院,广州,510610
基金项目:教育部"国家语言资源监测"项目
摘    要:设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统,系统引入小类校正和兼类判断的算法,完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比,实验证明,在约3万篇测试集上(共15个大类,244个小类),基于向量空间模型的大类分类高25.2个百分点,层级小类分类高26.3个百分点。

关 键 词:向量空间模型  简单贝叶斯
收稿时间:2006-01-12
修稿时间:2006-01-12

Implementation and Comparison of Similarity and Probabilistic Mode in Text Categorization
Liu Hua. Implementation and Comparison of Similarity and Probabilistic Mode in Text Categorization[J]. New Technology of Library and Information Service, 2006, 1(4): 53-55
Authors:Liu Hua
Affiliation:College of Chinese Language and Culture of Jinan University, Guangzhou 510610, China
Abstract:This paper has implemented a text categorization system based on Vector Space Model(VSM) and Naive-Bayes(NB).When estimating the category,the authors enhance the veracity of parent-category by emendation of sub-category,and judge whether document has multi-classification and multi-label by estimating the similar difference of classifier's final values.The experiment proves that VSM is better than NB in text representation: MicroF1 increases of 25.2 percent of parent-category,and MicroF1 increases of 26.3 percent of sub-category.
Keywords:Text categorization Vector space model Naive-Bayes
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号