首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。  相似文献   

2.
提出一种新的层次聚类方法,着重分析了该算法的思想体系及算法实现过程。该算法具有使结果簇更紧凑和独立的效果,具有更高的效率。  相似文献   

3.
基于均匀网格的自适应密度快速聚类算法   总被引:1,自引:1,他引:0  
提出了一种基于均匀网格的自适应密度快速聚类新算法.首先引入均匀网格和边界网格概念,然后给出了网格均匀度的计算方法和自适应网格划分技术.每次聚类都从均匀度最高的网格开始逐步向周围扩展均匀网格,直到遇到边界网格为止.算法除具有一般网格聚类算法的优点外,还能自适应地发现不同密度的类及其边界,能够有效地识别孤立点并具有较好的扩展性.最后,通过实验验证了该算法的有效性.  相似文献   

4.
主要就聚类算法研究中的一些基本问题做了深入分析,明确了在应用聚类算法、改进算法或者开发新的算法时的一些基本要求,并在最后列出了各种常用算法的特点,评价了各类算法的性能。  相似文献   

5.
针对Web挖掘,首先论述了Web挖掘的基本理论,接着分析数据挖掘中的聚类算法,讨论了聚类分析的数据结构和数据类型,以及聚类算法的分类,详细介绍了数据挖掘中用到的主要聚类算法,最后对评价聚类结果的方法进行了分析。  相似文献   

6.
聚类算法是数据挖掘的核心技术,基于密度的聚类是一类已经被证明非常有效的聚类方法.与DBSCAN算法作比较,文章提出了一种基于密度的聚类算法(Clustering Using Centers and Density,CUCD).该算法是基于中心点以及密度实现的,其核心对象是根据数据分布计算出来的虚拟的点,并且核心对象的代表性随程序的执行次数而提高;经实验验证,该算法具有较好的时间效率和聚类质量.  相似文献   

7.
为了对社会化标注系统中的标签进行有效聚类,并针对传统K-medoids算法存在的聚类结果易受初始聚类中心影响的问题,本文提出了一种改进的K-medoids标签聚类算法.该算法应用社会化标签的余弦相似值进行初始聚类中心的选择,然后进行标签聚类.对Delicious标签数据集的实验结果表明算法具有较强的的可行性和有效性.  相似文献   

8.
提出一种基于贪心随机自适应搜索过程的聚类算法.该算法先根据密度概念构造一个约束候选列表,然后从列表中随机选取k个对象作为K均值算法的k个起始中心点.试验结果表明该算法的聚类结果比k均值算法有显著改进.  相似文献   

9.
计算机之所以能够在不同的领域中应用,就是由于人们根据实际应用的需要,针对性的开发了应用软件,因此软件的开发情况,能够直接影响到其应用的效果,在这种背景下,如何提高软件开发的效率,成为很多专家和学者研究的问题,论文在本体构件聚类概念和特点的基础上,结合目前本体构建的情况,对基于本体的构件聚类算法,进行了深入的研究。  相似文献   

10.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力.  相似文献   

11.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

12.
对数据挖掘领域中常用聚类算法进行了阐述,并对其优缺点进行了分析,指出各自的特点,以便于人们更快、更容易地选择一种聚类算法解决特定问题。  相似文献   

13.
近年来,数据挖掘技术的研究备受国内外关注,其主要原因是信息技术发展产生了大量分散的数据,迫切需要将这些数据转换成有用的信息和知识.此前的研究,主要集中于分类算法及应用方面的研究,但某些特殊领域,如生物信息学研究等,需要通过聚类方法解决一些实际问题.本文从横向深入分析了数据挖掘技术中聚类算法的发展,对层次法、划分法、模糊法,以及量子聚类、核聚类,基于密度和网格等10种聚类算法的原理、过程和特点等都进行了比较详细的分析论述.  相似文献   

14.
提出一种新颖的基于谱聚类的音频聚类算法,首先对音频数据进行预处理,得到三维音频向量,然后根据向量之间的距离计算音频相似度,最后设计谱聚类算法获得音频数据聚类结果。在网易云音乐数据上的对比实验表明,与K means算法和快速查找密度峰值聚类算法相比,该算法获得的聚类结果更加优越。  相似文献   

15.
聚类分析是当今飞速发展的数据挖掘和数据信息分析的一个重要技术,因此聚类分析已经成为数据挖掘领域一个非常活跃的研究课题.针对空间数据库对聚类算法的特殊要求,分析了空间聚类算法的构造思想及其优缺点,探讨了空间聚类算法目前的工作、算法的一些开放性问题以及今后的研究方向.  相似文献   

16.
文本聚类是聚类方法的一个重要应用,是近年研究热点。对文本聚类定义、流程、相关问题进行了阐述,对其主要算法及应用领域进行了详细介绍。  相似文献   

17.
层次聚类算法是一类重要的聚类分析方法。传统的层次聚类算法的时间为O(n2)空间复杂度很大,这使得聚类分析在大型数据集上的应用受到限制。该文提出一种基于分治递推改进算法,该算法将大大减少算法的时间复杂度和空间复杂度。  相似文献   

18.
逆向Skyline查询能够应用到诸如决策支持、用户偏好支持以及市场行为分析等方面.由于参考对象q的存在,在执行逆向Skyline查询的过程中数据空间被划分成许多分区.然而,存在的算法都没有考虑这个问题的影响,直接使用原始数据集建立索引结构.本文提出了一种新的逆向Skyline查询方法CRSQ,它考虑了这个问题.CRSQ首先根据查询对象q对数据进行聚类,然后建立R-tree索引,最后利用高效修剪策略修剪索引搜索空间.实验结果表明CRSQ算法是有效的,它相对于没有聚类技术的算法获得了50 %以上的性能提高.  相似文献   

19.
提出了一种基于郭涛算法的聚类算法,在WEKA平台上通过使用Iris数据集和Glass数据集对基于郭涛算法的聚类算法和K-means算法进行对比实验,验证了基于郭涛算法的聚类算法的有效性。  相似文献   

20.
K-Means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-Means算法的局限性日益突出。基于网格划分的思想,提出了一种基于网格的K-Means聚类算法,该算法使用了网格技术在一定程度上去除了孤立点和噪声数据,减少了原始K-Means算法将大的聚类分开的可能。实验表明,该算法能处理任意形状和大小的聚类,对孤立点和噪声数据也能很好地识别,并且在去除孤立点和噪声数据方面可以达到较好的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号