首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
K-means算法是解决聚类问题的经典算法,在满足一定的条件情况下,聚类的结果比较好.但这种算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动.针对这种缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的算法.  相似文献   

2.
谱聚类在近年来得到了广泛的应用,而将谱聚类和半监督集群结合的方法通过使用约束改善结果来提高谱聚类的有效性.文章通过选择主动学习方法,提出了一种基于主动学习的半监督谱聚类算法.首先,利用邻域中包含的信息来确定要查询的数据,由于邻域信息只反映局部信息,因此,又引入与目标不太相似的数据点,这些数据点代表全局信息,得到Must-link(正关联)成对约束集和Cannot-link(负关联)成对约束集.然后,对得到的成对约束再通过k-means聚类得到聚类结果.最后,通过在合成数据集以及UCI数据集的对比实验表明文章算法的有效性,通过较小的主动选择成对约束来获得更好的性能.  相似文献   

3.
K-means算法是聚类分析划分方法中的一种常用方法,也是目前在数据分析方法中最有应用前景的方法之一。但K mean算法对初始聚类中心十分敏感,这对处理学生成绩等数据而言,会导致聚类结果极为不稳定。为此,提出基于改进遗传算法的K means聚类算法。该算法利用遗传算法解决初始聚类中心,提高聚类结果的稳定性,但存在前期过早收敛和后期收敛过慢的缺点。将改进遗传K means聚类算法应用于高职高专的学生考试成绩分析中,可以很好地解决传统遗传聚类算法对聚类结果的不稳定性问题,并通过聚类结果对学生考试成绩进行分类评价,利用所获得的数据聚类结果指导教学,从而提高教学质量。  相似文献   

4.
提出一种新的层次聚类方法,着重分析了该算法的思想体系及算法实现过程。该算法具有使结果簇更紧凑和独立的效果,具有更高的效率。  相似文献   

5.
聚类分析广泛应用于商务智能、图像模式识别、Web搜索、生物学等领域,是一种无指导的观察式学习。然而,绝大多数聚类分析算法都面临着一个非常棘手的问题——最佳聚类数的确定。K-means是典型的基于划分的聚类方法,它需要用户输入聚类数K,但这通常非常困难。聚类数的确定是决定聚类质量的关键因素。虽然有许多被用来估计最优聚类数的聚类评价指标,但对于不同的聚类算法,不同的评价指标效果差异很大。为确定针对K-means聚类算法效果最好的评价指标,采用4种典型的不同聚类结构特征的人工模拟数据以及来自UCI的真实数据集对7种评价指标的性能进行实验比较,结果表明CH指标和I指标在评估K-means算法的最佳聚类数时效果较好。  相似文献   

6.
重点讨论了聚类分析方法中K-means聚类算法在客户价值分析中的作用,通过对客户的现有价值和潜在价值进行分析,对客户进行细分。在此基础上,企业可结合行业的特征找出各类客户的特点,实行差异化服务策略,让更好的资源和服务提供给最有价值客户,从而达到顾客满意、企业盈利的目的。  相似文献   

7.
8.
为了对社会化标注系统中的标签进行有效聚类,并针对传统K-medoids算法存在的聚类结果易受初始聚类中心影响的问题,本文提出了一种改进的K-medoids标签聚类算法.该算法应用社会化标签的余弦相似值进行初始聚类中心的选择,然后进行标签聚类.对Delicious标签数据集的实验结果表明算法具有较强的的可行性和有效性.  相似文献   

9.
沈泓  刘顺 《教育技术导刊》2017,16(3):103-107
阐述了如何使用数据分析模型进行数据收集分析和处理,以及如何通过K-means聚类算法及线性回归模型建立合理预估模型。电能在从发电厂传输到用户的过程中,在输电、变电、配电以及营销管理的各环节中会产生电能损耗,如果线路损耗较高,则会对电网运行的安全性与经济性造成直接影响,同时也会加快线路老化或损坏速度。合理分析预估模型,可以找出差异性较大的台区着重进行管理与监测,并于用户操作区的Web端进行展示,进而有效预测出哪些台区可能存在偷窃电行为或其它影响正常供电的不合理行为,为供电工作提供有效辅助。  相似文献   

10.
介绍了web日志挖掘概念,利用改进后k-means聚类算法对网吧web日志挖掘,对网吧用户行为聚类分析,找出用户的偏爱,以便网吧管理员更好定制网吧网络管理策略.  相似文献   

11.
针对K-means算法对初始聚类中心敏感、容易收敛于局部极值和人工鱼群算法最大步长固定、寻优精度不高、后期收敛速度慢的问题,提出一种K-means和人工鱼群相结合的聚类算法。该算法将K-means聚类中心引入人工鱼群适应度函数,自动确定近似全局最优的初始聚类中心,并将其作为K-means初值详细进行局部搜索,以提高精度。同时采用淘汰机制和自适应的最大步长策略,优化人工鱼群算法性能。在Iris、Wine数据集和EPA-HTTP应用日志数据上对IAFSA KM算法进行实验仿真分析,验证了算法的有效性和可行性。  相似文献   

12.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

13.
传统的K—means算法对初始聚类中心敏感,聚类的结果随不同的初始输入而波动.为了消除这种敏感性,提出了一种改进的K-means算法,改善聚类算法中选取初值的依赖性,提高聚类结果的稳定性.仿真实验结果表明:改进后的K-means算法优于原始算法.  相似文献   

14.
针对谱聚类算法稳定性较差的问题,提出了一种改进的半监督谱聚类算法。该算法依据图像的颜色、纹理和空间特征进行聚类,通过Bayes距离学习对相似度矩阵的内容进行修正;然后,使用半监督K—means聚类算法对调整后的特征向量进行聚类划分。仿真实验结果表明。较传统谱聚类而言该算法在准确率及稳定性上都有了显著提升。  相似文献   

15.
本文将模糊C均值聚类和自适应神经模糊网络结合起来.模糊C均值聚类用于对输入变量空间进行划分,生成初始的模糊规则库,自适应模糊神经网络(ANFIS)选用最小二乘法和BP算法.与普通的模糊神经网络相比,这种模糊神经网络收敛速度快,建模精度高。  相似文献   

16.
主要就聚类算法研究中的一些基本问题做了深入分析,明确了在应用聚类算法、改进算法或者开发新的算法时的一些基本要求,并在最后列出了各种常用算法的特点,评价了各类算法的性能。  相似文献   

17.
随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。  相似文献   

18.
针对目前机车滚动轴承故障诊断效率低、速度慢的问题,设计一种基于小波包与粗糙集神经网络的机车走行部滚动轴承故障诊断方法。首先运用小波包分解构造故障特征集,之后运用粗糙集对故障特征集进行降维处理,消除冗余信息,然后将降维后的最小属性集作为Levenberg Marquardt算法改进的BP神经网络的输入,建立相应的神经网络模型实现故障诊断。测试结果表明,相较于普通BP网络模型,该方法降低了神经网络模型构建的复杂度,提高了故障诊断速度与故障诊断准确率。  相似文献   

19.
针对Web挖掘,首先论述了Web挖掘的基本理论,接着分析数据挖掘中的聚类算法,讨论了聚类分析的数据结构和数据类型,以及聚类算法的分类,详细介绍了数据挖掘中用到的主要聚类算法,最后对评价聚类结果的方法进行了分析。  相似文献   

20.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号