首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本聚类算法的质量评价
引用本文:刘务华,罗铁坚,王文杰.文本聚类算法的质量评价[J].中国科学院研究生院学报,2006,23(5):640-646.
作者姓名:刘务华  罗铁坚  王文杰
作者单位:中国科学院研究生院,北京,100080
基金项目:国家科技基础条件平台建设计划
摘    要:文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。

关 键 词:文本聚类  质量评价  有效性验证  后缀树聚类  Ant-Based  聚类  k-Means聚类
文章编号:1002-1175(2006)05-0640-07
修稿时间:2005年10月10

Quality Evaluation for Three Textual Document Clustering Algorithms
LIU Wu-Hua,LUO Tie-Jian,WANG Wen-Jie.Quality Evaluation for Three Textual Document Clustering Algorithms[J].Journal of the Graduate School of the Chinese Academy of Sciences,2006,23(5):640-646.
Authors:LIU Wu-Hua  LUO Tie-Jian  WANG Wen-Jie
Institution:Graduate University of Chinese Academy of Sciences, Beijing 100039
Abstract:Textual document clustering is one of the effective approaches to establish a classification instance of a huge textual document set. Clustering Validation or Quality Evaluation techniques can be used to assess the efficiency and effectiveness of a clustering algorithm. This paper presents the quality evaluation criterions. Based on these criterions we take three typical textual document clustering algorithms for assessment with experiments. The comparison results show that STC(Suffix Tree Clustering) algorithm is better than k-Means and Ant-Based clustering algorithms. The better performance of STC algorithm comes from that it takes into account the linguistic property when processing the documents. Ant-Based clustering algorithm's performance variation is affected by the input variables. It is necessary to adopt linguistic properties to improve the Ant-Based text clustering's performance.
Keywords:textual document clustering  quality evaluation  clustering validation  STC  Ant-Based clustering  k-Means clustering
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中国科学院研究生院学报》浏览原始摘要信息
点击此处可从《中国科学院研究生院学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号