共查询到20条相似文献,搜索用时 62 毫秒
1.
文本聚类算法的质量评价 总被引:4,自引:0,他引:4
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。 相似文献
2.
基于文本聚类与LDA相融合的微博主题检索模型研究 总被引:1,自引:0,他引:1
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段.其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素.文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型.实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题. 相似文献
3.
4.
文本自动聚类技术研究 总被引:1,自引:0,他引:1
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述. 相似文献
5.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。 相似文献
6.
SOM聚类算法在文本分类上的应用 总被引:2,自引:0,他引:2
随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。 相似文献
7.
8.
基于文本挖掘的分类与聚类技术 总被引:5,自引:0,他引:5
从基于文本挖掘理论和实践两方面,探讨了文本的分类与聚类的理论、技术及两者之间的区别,讨论了聚类与分类技术在文本挖掘过程中的重要作用,通过所列举的自动分类与聚类的应用实例,能给读者的实际工作以一定的借鉴。 相似文献
9.
针对DCF聚类描述法存在的问题,提出一种基于组合策略的聚类描述方法,即综合利用"先描述、后聚类"和"先聚类、后描述"的优点,解决聚类描述的可理解性问题.实验结果表明该方法的有效性,将该方法用于搜索结果聚类这一应用中. 相似文献
10.
文本聚类是进行文本信息检索的重要方法,被广泛应用于网络信息和档案资料的筛选和检索。分析了目前较成熟的文本聚类技术,并对文本聚类结果的评价方法进行了探讨。 相似文献
11.
12.
基于WWW的ProQuest6.0全文数据库检索系统分析 总被引:1,自引:0,他引:1
本文以美国ProQuest公司开发的ProQuest6.0全文数据库检索系统为例,主要分析了其检索性能,指出较之以前版本的新增功能所在,并对其特点进行了评价,提出对中文检索系统发展的一点建议。 相似文献
13.
基于WWW的全文检索系统检索性能探讨 总被引:9,自引:2,他引:9
本文以美国UMI公司开发的ProQuestDirect全文检索系统以及EBSCO公司开发的EBSCOhost全文检索系统为例,探讨了基于WWW的全文检索系统在检索语言、用户界面、检索功能等方面的性能。 相似文献
14.
本文简要介绍了聚类算法在国外信息检索领域中的应用概况,并详细介绍了聚类算法在国内该领域的应用情况。列举了应用得较多的几种聚类算法,给出了在多种信息检索中聚类算法的应用过程。 相似文献
15.
16.
17.
18.
在文本检索过程中充分利用词语之间的上下文关系有助于提高检索性能.首先对已有的相关工作进行综述;然后针对已有研究对词语上下文关系应用不足的现状,提出一种基于词语上下文关系的文本检索算法;最后通过实验对该算法进行验证. 相似文献
19.
全文检索研究 总被引:11,自引:0,他引:11
A new algorithm for automatic segmentation of Chinese word with the stop word list and post-controlled thesaurus, that has absorbed the ideas from the single-Chinese character method and the thesaurus method, is given. Based on this algorithm, a new full text retrieval mode is built. 相似文献