首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
SOM聚类算法在文本分类上的应用   总被引:2,自引:0,他引:2  
丁露  崔平 《现代情报》2007,27(9):162-164
随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。  相似文献   

2.
随着信息技术和Web技术的发展,如何从海量的Web文本信息中找到自己所需信息已成为一个重要的研究领域。在众多信息获取方法中,聚类技术是一种被广泛应用的方法。总结了文本聚类算法的研究现状,比较了算法的主要差异和整体思想,并分析了各种方法的优劣,同时指出了文本聚类研究今后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提高聚类性能。  相似文献   

3.
英汉双语文本聚类是一项非常有价值的研究。使用单语言文本聚类算法,在英汉双语新闻语料基础上,对基于中文单语、英文单语和英汉双语混合的方法进行了文本聚类比较研究,实验结果表明,基于英汉双语混合的文本聚类方法可以取得较好的聚类结果。  相似文献   

4.
引入或然状态指数矩阵,对网络文本特征进行指数分离处理和挖掘优化导向性控制,提出一种引入或然状态指数矩阵优化控制的网络文本特征导向性挖掘新技术。对具有或然性的文本数据进行分离修补导向性挖掘聚类,在文本数据择取过程中,将不同文本分量元素进行初始化倾向性分类处理,由指数矩阵确定元素属性类别概率,从而确定多个导向性聚类中心,从而实现了对或然网络文本特征的准确挖掘。仿真实验表明,新的挖掘技术能有效提取到模凌两可的或然性弱聚类导向性分类特征,数据挖掘准确率达到99.97%,而传统方法是根本无法对这类文本特征进行有效挖掘,展示了算法的优越模糊数据处理价值。  相似文献   

5.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

6.
张冰波 《大众科技》2010,(10):43-45
为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。  相似文献   

7.
海量以文本形式描述的地理信息存在于互联网中,大量地理相关的网络化信息难以得到发掘。为有效提升文本信息中与地理相关文本类别精准度。针对特征矩阵对分类结果的影响,在文本预处理中加入地理类特征名词,提出基于地理名词的TF-IDF特征权重计算方法,并在向量空间模型中引用新的特征矩阵。实验结果表明,加入地理特征名词可以降低特征维度,新的特征矩阵可以优化分类结果。该方法更准确地分类出与地理相关文本信息。本实验只针对与地理相关的文本信息发现,并未对地理信息进一步分类。此方法具有一定的应用前景和实用价值,可在此基础上进一步对文本信息类别中的地理分类进行研究。  相似文献   

8.
文本聚类算法的质量评价   总被引:4,自引:0,他引:4  
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。  相似文献   

9.
对海量数据信息进行迭代聚类能够为数据挖掘提供准确的依据,具有重要的应用价值。传统算法对于初始参数的选取过于敏感,从而降低了迭代聚类的准确率。提出基于并归聚类的海量数据信息中的迭代聚类方法。采用离差隶属度进行数据信息聚类中心的计算,确定数据信息的聚类中心;采用类间距离作为并归聚类判别的标准,用于判定数据信息特征与聚类中心的距离;对海量数据信息特征与聚类中心的计算结果进行归类处理,直至所有的数据信息的聚类中心都结束并归,从而获得准确的迭代聚类结果。仿真实验结果表明,改进算法能够提高海量数据信息中的迭代聚类结果,效果令人满意。  相似文献   

10.
基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号