共查询到17条相似文献,搜索用时 62 毫秒
1.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法. 相似文献
2.
被引内容指的是被引用文献在引用文献中被引述的具体内容。Small曾经指出被引内容的研究价值,但迄今为止,在文献计量学领域被引内容分析仍然没有广泛展开。针对这一情况,提出一种分析领域知识的新方法———基于文本聚类的被引内容分析法,这种方法可以在一定程度上解决引文分析存在的问题。以第二语言教育为分析领域,研究结果证明该方法的可行性以及被引内容的研究价值。 相似文献
3.
文本聚类结果描述研究综述 总被引:1,自引:0,他引:1
章成志 《现代图书情报技术》2009,3(2):1-8
首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。 相似文献
4.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。 相似文献
5.
6.
7.
基于粒子群的模糊C均值文本聚类算法研究 总被引:1,自引:0,他引:1
8.
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。 相似文献
9.
10.
本文提出一种面向聚类主题的文本特征表示方法,即以聚类的主题概念来刻画文本的特征向量,将文本描述提升至语义层次.首先,通过聚类,形成一组以向量形式表达的隐含主题概念,再将基于词条空间的文本特征向量投影至这组主题概念,以隐含的主题概念来描述文本.实验分析表明,建立在概念空间之上的文本向量实质上是文本矢量与主题概念的关联度,能够突出表现文本内容的主题特征,更好地反映文本的语义内容,从而有效提高模型在文本检索与分类等领域的应用性能.而基于聚类形成的概念空间的维数由于可主观调整,又能有效地约减概念空间的维数,提高模型的应用实效. 相似文献
11.
在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。 相似文献
12.
基于关键词和摘要相关度的文献聚类研究 总被引:1,自引:0,他引:1
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法. 相似文献
13.
[目的/意义] 为提高引文网络的社团划分的准确性,提出一种基于加权的引文网络的社团划分方法。[方法/过程] 以Louvain社团划分方法为算法基础,将科学论文用向量空间模型表示,利用改进的余弦相似度方法计算相邻论文之间的相似度,并将其作为权重,综合考虑论文内容属性与结构属性,提出一种基于样本加权的引文网络社团划分方法。[结果/结论] 该算法将引文网络中论文的文本内容属性与拓扑结构属性结合起来,通过对Scientometrics期刊发表的论文以及主题为CRISPR的论文进行社团划分研究实验,结果表明该方法能改善引文网络社团的划分效果。 相似文献
14.
一种基于SOM的中文Web文档层次聚类方法 总被引:10,自引:0,他引:10
近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法引入中文Web搜索引擎 ,首先探讨了其网络模型和算法 ,而后提出一种聚类用户所感兴趣的中文Web文档的层次聚类方法 ,从而提高中文Web文档的检索质量 相似文献
15.
基于主题地图的文献组织方法研究 总被引:3,自引:1,他引:2
网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献组织模型(TMDOM),通过从文献内容中概化出主题并定义主题之间的关联,将领域内主要的概念及其关联以合理的层次结构体现出来,以实现对文献资源的有效组织。试验结果证明了这种组织方法的优越性,通过主题之间的各种关联,实现了有效的信息导航。 相似文献
16.
17.
一种基于后缀树的Web搜索结果聚类方法 总被引:3,自引:2,他引:1
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量.测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性. 相似文献