共查询到20条相似文献,搜索用时 11 毫秒
1.
2.
数据挖掘中聚类算法研究综述 总被引:1,自引:0,他引:1
聚类分析是数据挖掘领域一个活跃的研究分支,在数据挖掘中已经开发出许多聚类算法,具体可分为划分方法、层次方法、基于密度方法、基于网格的方法、基于模型的方法。本文对上述几类聚类分析算法进行了讨论,对每种聚类算法都举出了典型例子,并作了分析,指出了各种算法的优缺点并对聚类技术未来的发展作出了展望。 相似文献
3.
针对FCM(模糊C均值聚类算法)对初始聚类中心的选取敏感以及梯度法易收敛到鞍点,在此基础上提出了一种分层遗传算法(HGA)优化的核模糊C均值聚类算法(HGA-KFCM)来提升聚类性能,首先用分层遗传算法(HGA)在全局筛选出高品质聚类中心以替代FCM的随机产生的聚类中心,再利用高斯径向核函数改变FCM中的距离函数并且重新定义目标函数,最终根据新参数进行迭代流程。在仿真实验中用两种数据集作为实验数据,利用FCM、HGA-KFCM以及其他三种聚类算法进行聚类测试,结果显示HGA-KFCM在一定程度上解决了FCM的缺陷,此外将新算法与另外三种性能不错的聚类算法在抗局部收敛能力,迭代次数和精度上比较,结果显示新算法具有良好的聚类性能。 相似文献
4.
5.
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法。该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取。UCI机器学习数据库数据集的实验证明,本文所提出的改进的聚类算法获得了良好的聚类效果,同时获得较高的聚类准确率。 相似文献
6.
《科技通报》2016,(8)
二阶锥规划是在有限个二次锥的笛卡尔空间仿射变换交集上的极小化和极大化线性函数,采用修正的二阶锥规划模型,结合二阶锥的凸优化条件,进行大数据聚类算法改进,提高数据的聚敛性。传统方法中对大数据聚类的二阶锥规划模型采用线性对偶锥规划方法,对数据聚类的路径跟踪性能不好。提出一种基于修正的齐次二阶锥规划模型的大数据聚类算法。进行数据的特征挖掘和信息流模型构建,从大量的、有噪声的、模糊的数据中进行大数据的功率谱密度特征提取,采用粗糙概念格方法对大数据信息流进行二阶锥规划模型构建,结合齐次二阶锥规划模型算法有限收敛性,对每一数据聚类样本进行可靠性衡量,实现数据聚类中心的准确搜索。对聚类误差函数求最优解,使得误差收敛到零。仿真结果表明,该算法进行数据聚类的精度较高,收敛性较好,避免了出现局部最优解,性能优越于传统算法。 相似文献
7.
数据挖掘是在海量的数据中寻找模式或规则的过程。数据挖掘强调的是发现知识,获得的知识类型包括关联规则、分类、回归、聚类、依赖模型等。本文对其中聚类分析技术进行了较为深入地研究与分析,提出基于信息素的蚁群聚类算法PCBP,利用信息素指导蚂蚁移动,用不同速度的蚂蚁来改善聚类质量,并在这个思想基础上提出层次化蚁群聚类方法。为人们研究聚类提供了新思路和新途径,因此本文的研究具有一定的理论和实践意义。 相似文献
8.
9.
文章提出了一种基于人工免疫增量的聚类算法。该算法在人工免疫可更新聚类算法的基础上,结合蚁群增量聚类算法的思想,将原聚类得到的记忆抗体矩阵作为初始矩阵,调用人工免疫聚类算法处理增量数据,然后采用类解体机制处理类内误差超过规定阈值的聚类。 相似文献
10.
基于社会演化算法的聚类新算法 总被引:1,自引:0,他引:1
K均值聚类算法通常只能以局部最优结束,很难找到全局最优。提出了一种基于社会演化算法和K均值算法相结合的聚类新算法。在该算法中提出了认知主体在聚类中对范式学习的新的方式。实验证明该算法能大大提高聚类的效率和精度。 相似文献
11.
12.
13.
在对最佳任务调度下的Web数据进行优化聚类的过程中,容易出现原始数据损失的情况,导致传统数据优化聚类算法,由于忽略初始数据,无法有效实现Web数据优化聚类。提出一种基于粒子群优化的最佳任务调度下Web数据优化聚类算法,依据任务价值密度以及执行紧迫性,塑造动态优先级,通过适应度函数对分类计划进行评价,给出类间距与类内距计算公式,对相关参数和各粒子的位置以及速度向量进行初始化操作;求出粒子的适应度;求出粒子个体最优与群最优;依据粒子群优化算法的位置以及速度对当前位置和速度进行更新;通过K-means算法对EHCF进行聚类,直至全部Web数据聚类完成。仿真实验结果表明,所提方法在Web数据优化聚类上具有很高的优越性。 相似文献
14.
15.
《科技通报》2015,(8)
对大数据的分层建树聚类,提高对大数据的检测和大数据应用系统的故障分析能力。传统方法中对大数据的分层聚类采用K-Means聚类算法,容易陷入局部收敛,聚类效果不好。提出一种基于核向量机的数据的分层建树聚类。采用四叉树算法对多维数据进行数据预处理,进行KNN中心区域的聚类中心扩展处理,针对大数据的类域交叉性进行了一次核向量机差分比较,得到KNN模糊划分矩阵,根据所属类别的不同对已知样本进行分层,得到一维差分分层建树模型和二维差分分层建树模型,计算数据核向量之间的相似度特征,实现矩阵的数据点数模糊集合贴近度填充,实现聚类算法改进。仿真结果表明,该算法具有优越的大数据聚类性能,收敛性好,应用到网络在线故障诊断中,实现对故障信号的和恢复跟踪,提高了故障诊断效益,展示了较好的应用价值。 相似文献
16.
17.
18.
19.
在数据装入数据仓库之前,应该对数据进行数据清洗.而数据清洗的核心工作就是清洗近似重复记录.聚类是将相似度高的数据对象聚集到一个类中,于是我们提出将该技术用于近似重复记录的发现上.本文主要介绍如何将SOM网络聚类强大的学习功能及良好的自组织性、自适应性和鲁棒性应用到数据清洗中。 相似文献
20.
大学生身体素质的准确分类,直接关系到大学体育分组教学和选才评价的合理性、有效性.传统的模糊聚类分析法有传递闭包法、编网法等.编网法虽然直观,但必须画图,不适合编程应用;传递闭包法需要计算相似矩阵的传递闭包,其计算量随分类对象数目的增加而呈指数规律增加,不宜应用推广.为此,引入FCM算法,采用身体质量指数、肺活量、耐力素质、柔韧力量素质和速度灵巧素质等5个聚类特征量,对大学生身体素质进行模糊聚类分析,利用Xie-Beni有效性指标确定最佳的分类方式,并利用MATLAB软件编程辅助计算.实践证明,该方法操作简便,科学有效,便于应用推广. 相似文献