首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于k最近邻的快速文本分类方法
引用本文:张庆国,张宏伟,张君玉.一种基于k最近邻的快速文本分类方法[J].中国科学院研究生院学报,2005,1(5):554-559.
作者姓名:张庆国  张宏伟  张君玉
作者单位:1. 中国科学院研究生院数学系,北京,100049
2. 清华大学光盘国家工程研究中心,北京,100084
摘    要:k最近邻方法是一种简单而有效的文本分类方法,但是传统的k最近邻分类方法在搜索k个最近邻时需要高强度的相似性计算,尤其是在训练集数据量很大情况下,全局的最优搜索几乎是不可能的.因此,加速k个最近邻的搜索是k最近邻方法实用的关键.本文提出了一种基于k最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类.实验结果表明这一方法较传统方法性能有显著提升.

关 键 词:文本分类  k最近邻(k-NN)  多维索引  相似检索
文章编号:1002-1175(2005)05-0554-06
修稿时间:2004年8月9日

A Fast Mixed Text Categorization Approach Based on k- Nearest Neighbor
ZHANG Qing-Guo,ZHANG Hong-Wei,ZHANG Jun-Yu.A Fast Mixed Text Categorization Approach Based on k- Nearest Neighbor[J].Journal of the Graduate School of the Chinese Academy of Sciences,2005,1(5):554-559.
Authors:ZHANG Qing-Guo  ZHANG Hong-Wei  ZHANG Jun-Yu
Institution:1 Department of Mathematics, Graduate School of the Chinese Academy of Sciences, Beijin 100049,China;
2 Optical Memory National Engineering Reseach Center, Tsinghua University, Beijing 100084,China
Abstract:k -Nearest Neighbor ( k -NN) is one of the simplest and most effective algorithms for text categorization. However, k -NN search requires intensive similarity computations,particularly for large training set,the search of the whole set is unacceptable. Therefore,speeding-up k -NN search is a key for making k -NN categorization useful in practice. In this paper a fast text categorization approach based on k -NN,which can classify textual documents quickly and efficiently on condition of searching in the very large training set is presented. Experiment shows that the new algorithm can greatly improve the performance.
Keywords:text categorization  k -Nearest Neighbor( k -NN)  multidimensional index  similarity retrieval
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中国科学院研究生院学报》浏览原始摘要信息
点击此处可从《中国科学院研究生院学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号