共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
4.
标签的聚类分析研究 总被引:7,自引:1,他引:6
王翠英 《现代图书情报技术》2008,24(5):67-71
探讨标签的清除与准备、标签之间的共现分析以及基于共现信息的标签聚类,并试图通过标签的聚类分析,进行相关标签群的查找,从而研究标签的本质。 相似文献
5.
6.
文本聚类结果描述研究综述 总被引:1,自引:0,他引:1
章成志 《现代图书情报技术》2009,3(2):1-8
首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。 相似文献
7.
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。 相似文献
8.
The need to cluster small text corpora composed of a few hundreds of short texts rises in various applications; e.g., clustering top-retrieved documents based on their snippets. This clustering task is challenging due to the vocabulary mismatch between short texts and the insufficient corpus-based statistics (e.g., term co-occurrence statistics) due to the corpus size. We address this clustering challenge using a framework that utilizes a set of external knowledge resources that provide information about term relations. Specifically, we use information induced from the resources to estimate similarity between terms and produce term clusters. We also utilize the resources to expand the vocabulary used in the given corpus and thus enhance term clustering. We then project the texts in the corpus onto the term clusters to cluster the texts. We evaluate various instantiations of the proposed framework by varying the term clustering method used, the approach of projecting the texts onto the term clusters, and the way of applying external knowledge resources. Extensive empirical evaluation demonstrates the merits of our approach with respect to applying clustering algorithms directly on the text corpus, and using state-of-the-art co-clustering and topic modeling methods. 相似文献
9.
10.
11.
基于灰关系分析的模糊聚类 总被引:1,自引:0,他引:1
灰关系分析(Grey relational analysis, GRA))能够度量参考样本和比较样本间的相似性而广泛应用于聚类算法中,但目前基于GRA的聚类方法对灰关系阈值的设定采用尝试法,难以刻画信息的完全度.为此,本文将灰关系分析所学习的相似性度量嵌入到流行的模糊聚类算法中,从而提出了基于灰关系分析的模糊聚类方法.分析了灰关系性质和核机理论相似性基础之上,由灰色理论中的灰关系衍生出一种新型核--灰关系核,同时,也由核机理论诱导出一种新的灰关系度量,从而构建了灰关系分析和核机理论间的一条联系纽带.UCI数据集上的模拟实验验证了基于灰关系分析的模糊聚类方法和所提灰关系度量的有效性. 相似文献
12.
本文提出一种面向聚类主题的文本特征表示方法,即以聚类的主题概念来刻画文本的特征向量,将文本描述提升至语义层次.首先,通过聚类,形成一组以向量形式表达的隐含主题概念,再将基于词条空间的文本特征向量投影至这组主题概念,以隐含的主题概念来描述文本.实验分析表明,建立在概念空间之上的文本向量实质上是文本矢量与主题概念的关联度,能够突出表现文本内容的主题特征,更好地反映文本的语义内容,从而有效提高模型在文本检索与分类等领域的应用性能.而基于聚类形成的概念空间的维数由于可主观调整,又能有效地约减概念空间的维数,提高模型的应用实效. 相似文献
13.
本文通过引入知网的概念,对传统的K-means聚类算法进行了分析,初始聚类中心的选择对聚类结果有较大的影响,初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。采用聚类中心的搜索算法来进行聚类中心的选取,对其初始聚类中心确定一个初始划分,运用“射靶”的原理进行了改进,找到“靶心”得到一个最终选定的初始聚类中心,从而提高算法的稳定性,得到较稳定的聚类结果。实验结果表明,采用改进后的K-means作为簇心生成算法,随着待聚类文档数目的增加,效率提升更为突出。 相似文献
14.
15.
16.
基于聚类分析的读者阅读倾向研究 总被引:2,自引:0,他引:2
17.
根据人机交互设计中人物角色的用户建模思想,在机构仓储系统的应用环境下,通过对用户行为日志的分析,采用K-means聚类方法识别用户行为模式,并据此划分主要用户群体类型,创建机构仓储系统的人物角色-行为特征矩阵量化模型。 相似文献
18.
[目的/意义]探索领域知识发展过程中的聚类演化问题有助于揭示知识聚类的特征和规律,对于掌握知识生长演进过程中关联知识的聚集具有重要意义。[方法/过程]以复杂网络的思想为基础,基于标签邻接关系的发生值构建时间序列领域知识网络。即依据网络模体的理论,采用网络聚类系数的分析方法,对领域知识网络进行动态跟踪与分析;结合网络密度、特征路径长度、节点度值、封闭三元组等指标,从随机因素、度相关性、邻近关联3个方面对领域知识发展过程中的聚类演化现象进行分析。[结果/结论]研究结果表明:①领域知识在发展进程中始终保持较高的聚类性;②领域知识的聚类性同时包含随机性与结构性(非随机性)两方面因素; ③领域知识聚类的动态状态在小世界网络和无标度网络之间摇摆演化; ④领域知识的聚类状态在网络全局和局部节点之间表现出一定的差异性。 相似文献
19.
基于样本加权的文本聚类算法研究 总被引:3,自引:0,他引:3
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果. 相似文献
20.
Web中文文本聚类研究及实现* 总被引:5,自引:0,他引:5
杨学明 《现代图书情报技术》2006,1(12):81-84
采用Web文本自动聚类技术,提出一种将HAC(Hierarchical Agglomerative Clustering)聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架,并通过实验对该框架进行评估。 相似文献