首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
K-Means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-Means算法的局限性日益突出。基于网格划分的思想,提出了一种基于网格的K-Means聚类算法,该算法使用了网格技术在一定程度上去除了孤立点和噪声数据,减少了原始K-Means算法将大的聚类分开的可能。实验表明,该算法能处理任意形状和大小的聚类,对孤立点和噪声数据也能很好地识别,并且在去除孤立点和噪声数据方面可以达到较好的精度。  相似文献   

2.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

3.
文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。  相似文献   

4.
随着宏基因组学的不断发展,揭示了微生物菌群在研究中的重要作用。采用K-Means聚类算法对来源于北平顶猴阴道微生物群落OTUs数据集的27个样本进行研究,并与PCA主成分分析法进行对比。K-Means聚类将OTUs数据集分成4个Cluster,而PCA将OTUs数据集划分成5个Cluster。此外,结合样本的元数据-pH,发现样本间的pH值相似性更能与K-Means聚类的分类保持一致。相较于PCA主成分析方法,K-Means聚类能更精确地对OTUs数据集进行分类。  相似文献   

5.
近年来,数据挖掘逐渐成为一个热门的研究方向,而聚类作为数据挖掘的主要方法之一,越来越受到关注。目前,空间聚类主要采用成熟的K-Means聚类算法,但K-Means聚类算法的空间度量主要是欧氏几何距离,这在道路网络中并不适用。采用基于SVG道路网络边的聚类算法,首先,将位于同一条道路网络边的空间对象划分为一个初始聚类;然后,按照距离阈值对初始聚类进行分裂,生成小的聚类块;最后,对与结点相邻的聚类块进行合并得到最终的聚类结果。  相似文献   

6.
通过考试成绩来评价学生学习情况是我国基础教育最常用的方式.然而,考试成绩单往往只能提供成绩排名和及格率等数据,要从成绩单中直接获取学生在班级中的成绩分布以及偏科情况等具有一定难度.文章采用机器学习中的K-Means聚类算法,对学生文理科成绩分数进行聚类分析,进而针对聚类结果作出分析与评价,为实施个性化教学策略提供直观参...  相似文献   

7.
一种基于聚类和关联规则修正的入侵检测技术   总被引:1,自引:0,他引:1  
针对目前基于K-Means算法的入侵检测技术所存在的符号类型数据处理能力欠缺、误报率较高的问题,提出了一种基于聚类和关联规则修正的入侵检测技术。将关联规则挖掘技术引入到聚类分析机制中,利用针对符号型属性的关联规则挖掘结果对聚类结果进行修正,从而有效降低由于在入侵检测单纯使用聚类分析所导致的误报。详细阐述了改进的具体实现方案,并通过实验验证了该技术的可行性。  相似文献   

8.
根据旅行商问题中城市分布的特点,提出了分区域聚类的蚁群算法.首先,对城市分布进行球形聚类,再分别对剩下的城市进行线形聚类和孤立点聚类.采用这样的分区域聚类的蚁群算法收敛速度快,寻求的解更优.实验表明,该算法比基本蚁群算法在求得解更优的同时,速度快3~13倍.  相似文献   

9.
K-means聚类算法常用在图像分割中,聚类中心多采用随机选取,以彩色图像为研究对象,提出在彩色图像RGB三个分量灰度直方图中分别检测峰值,经三者排列后形成自动聚类中心的方法.实验结果表明:该方法简单、快速,检测出的峰值准确,形成的K-means聚类中心较为合理.  相似文献   

10.
入侵检测技术是网络安全中重要的组成部分,它弥补了防火墙和数据安全保护的缺陷,能够通过对一些入侵特征进行分析并预警,以达到防患于未然.该文进行了基于聚类技术的入侵检测算法的研究,提出了一种基于信息熵的聚类算法,并应用在入侵检测系统中进行特征提取,通过聚类形式化描述,提出数据记录信息熵和相对熵聚类的聚类算法.  相似文献   

11.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

12.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

13.
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。  相似文献   

14.
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。  相似文献   

15.
INTRODUCTION Face detection has been widely used in fields such as security, multimedia retrieval, human com-puter interaction, etc. Therefore it becomes one of the most active research areas in computer science. Re-cently, approaches to face detection include neural network (Rowley et al., 1998), boosting (Viola, 2001; Viola and Jones, 2004), template matching (Kim et al.,2000) and skin color (Cai and Goshtasby, 1999; Wang and Yuan, 2001; Soriano et al., 2003), etc. The methods of n…  相似文献   

16.
为及时从海量微博信息中迅捷有效提取出微博热点话题、事件,提出基于频繁集的聚类SSDKmeans算法,在有限空间下统计分词的近似频数,并在此基础上构建文本向量空间模型,在聚类生成的每个话题簇中提炼话题关键词。通过对2万条微博数据进行有效性验证,结果表明,基于SSDKmeans算法的话题发现有较高的召回率和精准率,分别为91.3%、92.1%。SSDKmeans算法能够有效提高微博热点话题发现率,进而及时了解社会热点话题与舆论趋势。  相似文献   

17.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

18.
考虑到图像存在异常像素,将邻域因素考虑在内对模糊C-均值聚类算法(FCM)和异常像素检测算法(APD)提出了改进。首先,提出了邻域因素的邻域-FCM(N-FCM),然后,提出了模糊异常像素检测算法(Fuzzy-APD)。实验过程中,选择噪声图像、彩色图像作为实验图像,对FCM和N-FCM算法进行性能比较,证实相比于FCM算法,N-FCM算法的收敛性明显提高,图像分割的正确率进一步改善;同时从图像中获取部分像素进行异常像素检测,实验证实相比于异常像素检测,Fuzzy-APD准确性更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号