首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   

2.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

3.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

4.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠.  相似文献   

5.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能.  相似文献   

6.
本文详细介绍了模糊聚类算法的产生过程以及应用模糊聚类算法进行模糊分析的ASP代码,最后通过一个具体的实例,对模糊聚类算法进行了验证。  相似文献   

7.
基于蚁群算法与K-means算法相结合的Web用户聚类   总被引:1,自引:1,他引:0  
Web用户聚类是指用聚类算法产生用户会话的聚类,是电子商务中的一个重要问题.该问题的难度在于有成千上万的会话需要聚类,而且每个会话都可描述为一个高维向量.此外,该问题就聚类的数目而言具有指数的复杂性,是一个NP-难的问题.本文提出一种新的聚类方法,该方法将蚁群算法与K-means算法相结合对用户会话进行优化聚类.实验结果表明,与K-means算法相比,该方法在Web导航推荐的应用中具有更好的性能.  相似文献   

8.
冯珺  孙济庆 《情报学报》2007,26(3):356-360
本文通过引入知网的概念,对传统的K-means聚类算法进行了分析,初始聚类中心的选择对聚类结果有较大的影响,初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。采用聚类中心的搜索算法来进行聚类中心的选取,对其初始聚类中心确定一个初始划分,运用“射靶”的原理进行了改进,找到“靶心”得到一个最终选定的初始聚类中心,从而提高算法的稳定性,得到较稳定的聚类结果。实验结果表明,采用改进后的K-means作为簇心生成算法,随着待聚类文档数目的增加,效率提升更为突出。  相似文献   

9.
基于粒子群的模糊C均值文本聚类算法研究   总被引:1,自引:0,他引:1  
利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。  相似文献   

10.
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点.  相似文献   

11.
Web中文文本聚类研究及实现*   总被引:5,自引:0,他引:5  
采用Web文本自动聚类技术,提出一种将HAC(Hierarchical Agglomerative Clustering)聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架,并通过实验对该框架进行评估。  相似文献   

12.
文本软聚类是适应学科发展而逐步兴起的一项文本聚类技术,它更加全面地反映文本的特征信息.本文首先分析了文本软聚类技术的现状,提出了基于惩罚性矩阵分解(PMD)的文本软聚类算法,并应用于文本聚类研究.实验结果表明,本文提出的算法具有较好的聚类结果.  相似文献   

13.
聚类搜索引擎探究   总被引:1,自引:0,他引:1  
一批代表性的聚类搜索引擎的出现,使得聚类搜索引擎的优劣逐步为公众所知.采用聚类算法、重视结果的显示方式、关注用户提问信息、提供个性化服务均是聚类搜索引擎最显著的优点,应该引起足够的重视.针对过分依托原生搜索引擎、没有形成专用聚类算法、搜索速度相对较慢、聚类层次有限等现状,作者最后还对聚类搜索引擎的发展提出了一些建议,比如实现人工聚类与自动聚类结合、增加学术趋势分析功能、加强相关度研究等.  相似文献   

14.
利用优化的DBSCAN算法进行文献著者人名消歧   总被引:1,自引:0,他引:1  
通过对文本聚类算法DBSCAN算法优化对文献著者人名进行消歧,结果表明,相对标准文本聚类算法来说,优化后的算法能取得更好的人名消歧效果。  相似文献   

15.
孙海生 《图书情报工作》2016,60(10):123-129
[目的/意义] 传统共词分析的聚类算法存在以下不足:①关键词只能被划归一个聚类;②聚类过程对分类数目的确定缺乏严格判断标准。针对以上问题,采用复杂网络理论进行改进研究。[方法/过程] 采用连边社团检测算法对关键词进行聚类,以科学计量学为例进行实证研究。[结果/结论] 分析结果表明:算法对关键词的聚类结果有较好的改进效果,能够把核心度高的关键词同时划分到不同的研究主题之中,克服传统聚类算法的不足,而且划分密度可为聚类数目的确定提供客观判断依据。  相似文献   

16.
聚类就是指按照事物间的相似性对事物进行区分和分类的过程,是在没有教师指导下自动进行的无监督的分类。本文通过实现常用的K-mean算法和FCM算法,在对测试数据进行反复聚类后,对聚类算法进行了对比与分析。  相似文献   

17.
在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。  相似文献   

18.
一种基于后缀树的Web搜索结果聚类方法   总被引:3,自引:2,他引:1  
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量.测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性.  相似文献   

19.
耿新青  王正欧 《情报学报》2006,25(3):296-300
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。  相似文献   

20.
针对热点主题发现是在聚类算法的基础上实现的特点,将改进后的蚁群聚类算法引入到该研究中,同时提出类别关注度(CAD)的概念,以此来判定类别的热门程度并区分出热门类别和冷门类别,在此基础上抽取热点主题集。实验结果表明改进后的蚁群聚类算法对热点主题的发现有一定的效果,对其他仿生优化聚类算法的引入有借鉴意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号