首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于k-最近邻的无监督文本分类算法
引用本文:余小鹏,马费成.一种基于k-最近邻的无监督文本分类算法[J].情报学报,2008,27(4).
作者姓名:余小鹏  马费成
作者单位:1. 武汉大学信息管理学院,武汉,430072;武汉工程大学经济管理学院,武汉,430073
2. 武汉大学信息管理学院,武汉,430072
摘    要:k-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对k值也比较敏感.本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC).该方法先采用误差平方和准则自适应地从k个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类.实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对k值不敏感.

关 键 词:k-最近邻  核密度估计  误差平方和准则  文本分类

An Unsupervised Text Classification Algorithm Based on k-nearest Neighbors
Yu Xiaopeng,Ma Feicheng.An Unsupervised Text Classification Algorithm Based on k-nearest Neighbors[J].Journal of the China Society for Scientific andTechnical Information,2008,27(4).
Authors:Yu Xiaopeng  Ma Feicheng
Institution:Yu Xiaopeng~(1,2) Ma Feicheng~1 (1.School of Information Management,Wuhan University,Wuhan 430072,2.Wuhan Institute of Technology,Wuhan 430073)
Abstract:k-Nearest Neighbors(KNNC)is a widely used classifier in text categorization community,but it suffers from the presumption that training data are evenly distributed among all categories,and it is sensitive to the parameter k.In this paper,we propose an unsuperviset strategy(UKNNC)for the KNN Classifier,which adopts sum-of-squared-error criterion to adaptively select the contributing part from these neighbors and classifies the input document in term of the disturbance degree which it brings to the kernel den...
Keywords:k-nearest neighbor  kernel density estimation  sum-of-squared-error criterion  text classification  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号