首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 11 毫秒
1.
付淇  黎虹  李广振 《科技广场》2010,(1):237-240
流数据挖掘技术是数据挖掘领域的新研究方向之一,而聚类研究又是其重要的内容。本文介绍了流数据基本特点,在统一流聚类表示模型的基础上,对现有流数据聚类算法进行了总结,并进一步提出了流数据聚类技术的研究方向和前景。  相似文献   

2.
数据挖掘中聚类算法研究综述   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘领域一个活跃的研究分支,在数据挖掘中已经开发出许多聚类算法,具体可分为划分方法、层次方法、基于密度方法、基于网格的方法、基于模型的方法。本文对上述几类聚类分析算法进行了讨论,对每种聚类算法都举出了典型例子,并作了分析,指出了各种算法的优缺点并对聚类技术未来的发展作出了展望。  相似文献   

3.
针对FCM(模糊C均值聚类算法)对初始聚类中心的选取敏感以及梯度法易收敛到鞍点,在此基础上提出了一种分层遗传算法(HGA)优化的核模糊C均值聚类算法(HGA-KFCM)来提升聚类性能,首先用分层遗传算法(HGA)在全局筛选出高品质聚类中心以替代FCM的随机产生的聚类中心,再利用高斯径向核函数改变FCM中的距离函数并且重新定义目标函数,最终根据新参数进行迭代流程。在仿真实验中用两种数据集作为实验数据,利用FCM、HGA-KFCM以及其他三种聚类算法进行聚类测试,结果显示HGA-KFCM在一定程度上解决了FCM的缺陷,此外将新算法与另外三种性能不错的聚类算法在抗局部收敛能力,迭代次数和精度上比较,结果显示新算法具有良好的聚类性能。  相似文献   

4.
利用数据挖掘技术对Demeter卫星数据进行分析从而发现异常数据已成为当前研究的重点,为了进一步提高异常数据发现的质量,本文提出了一种改进的聚类算法,对Demeter卫星电场数据进行异常检测,该算法首先将数据随机取样,引入信息熵理论,对PAM算法进行改进,并对卫星数据进行划分,以找到聚类中心,最后对改进算法进行了分析与比较,实验结果证明了算法的有效性。  相似文献   

5.
郭文娟 《科技风》2022,(4):63-65
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法。该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取。UCI机器学习数据库数据集的实验证明,本文所提出的改进的聚类算法获得了良好的聚类效果,同时获得较高的聚类准确率。  相似文献   

6.
二阶锥规划是在有限个二次锥的笛卡尔空间仿射变换交集上的极小化和极大化线性函数,采用修正的二阶锥规划模型,结合二阶锥的凸优化条件,进行大数据聚类算法改进,提高数据的聚敛性。传统方法中对大数据聚类的二阶锥规划模型采用线性对偶锥规划方法,对数据聚类的路径跟踪性能不好。提出一种基于修正的齐次二阶锥规划模型的大数据聚类算法。进行数据的特征挖掘和信息流模型构建,从大量的、有噪声的、模糊的数据中进行大数据的功率谱密度特征提取,采用粗糙概念格方法对大数据信息流进行二阶锥规划模型构建,结合齐次二阶锥规划模型算法有限收敛性,对每一数据聚类样本进行可靠性衡量,实现数据聚类中心的准确搜索。对聚类误差函数求最优解,使得误差收敛到零。仿真结果表明,该算法进行数据聚类的精度较高,收敛性较好,避免了出现局部最优解,性能优越于传统算法。  相似文献   

7.
王鹤 《中国科技信息》2007,(15):280-281
数据挖掘是在海量的数据中寻找模式或规则的过程。数据挖掘强调的是发现知识,获得的知识类型包括关联规则、分类、回归、聚类、依赖模型等。本文对其中聚类分析技术进行了较为深入地研究与分析,提出基于信息素的蚁群聚类算法PCBP,利用信息素指导蚂蚁移动,用不同速度的蚂蚁来改善聚类质量,并在这个思想基础上提出层次化蚁群聚类方法。为人们研究聚类提供了新思路和新途径,因此本文的研究具有一定的理论和实践意义。  相似文献   

8.
Spark提供基于内存计算的开源计算,支持全栈式解决批处理、数据查询和机器学习等业务场景。Spark生态系统在机器学习领域的重要应用MLlib,具有很多常用算法,实现了K-means等多种分布式机器学习算法。本文主要探讨Spark的功能、体系结构和Spark的特点,聚类算法和基于Spark机器学习库MLlib及其K-means算法。  相似文献   

9.
谢静  苏一丹 《大众科技》2010,(12):38-39
文章提出了一种基于人工免疫增量的聚类算法。该算法在人工免疫可更新聚类算法的基础上,结合蚁群增量聚类算法的思想,将原聚类得到的记忆抗体矩阵作为初始矩阵,调用人工免疫聚类算法处理增量数据,然后采用类解体机制处理类内误差超过规定阈值的聚类。  相似文献   

10.
基于社会演化算法的聚类新算法   总被引:1,自引:0,他引:1  
郝占刚  王正欧 《情报杂志》2006,25(5):5-6,10
K均值聚类算法通常只能以局部最优结束,很难找到全局最优。提出了一种基于社会演化算法和K均值算法相结合的聚类新算法。在该算法中提出了认知主体在聚类中对范式学习的新的方式。实验证明该算法能大大提高聚类的效率和精度。  相似文献   

11.
聚类是入侵检测中重要技术之一,本文对入侵检测技术中k-means聚类算法进行了分类分析,分析了各种改进的k-means聚类算法的优点及其在入侵检测技术中的应用。  相似文献   

12.
刘明红  袁昕  童辉 《科技通报》2021,37(1):50-55
为了加强智能电网构建的推进,加强智能量测终端大量投入使用,提出了聚类方法用于电力公司实时分析负荷特性及负荷用电数据信息.在分析电力负荷曲线数据的基础上,分别考虑了电网企业和社会价值信息,提出了基于FCM和K-means聚类2种方法来提取出用户用电规律,并分析用户负荷构成与用电行为.经过仿真分析和实验验证,通过均方误差、...  相似文献   

13.
在对最佳任务调度下的Web数据进行优化聚类的过程中,容易出现原始数据损失的情况,导致传统数据优化聚类算法,由于忽略初始数据,无法有效实现Web数据优化聚类。提出一种基于粒子群优化的最佳任务调度下Web数据优化聚类算法,依据任务价值密度以及执行紧迫性,塑造动态优先级,通过适应度函数对分类计划进行评价,给出类间距与类内距计算公式,对相关参数和各粒子的位置以及速度向量进行初始化操作;求出粒子的适应度;求出粒子个体最优与群最优;依据粒子群优化算法的位置以及速度对当前位置和速度进行更新;通过K-means算法对EHCF进行聚类,直至全部Web数据聚类完成。仿真实验结果表明,所提方法在Web数据优化聚类上具有很高的优越性。  相似文献   

14.
随着21世纪的到来,市场上出现了以淘宝和亚马逊为代表的一些电商平台,这些平台为消费者提供了极大购物便利的同时,也出现了很多因为数据过大而导致的一系列问题,例如数据量过大,导致聚类算法效率低下,不能及时给用户推荐产品,同时数据量过大,导致数据稀疏性问题明显。因此,文章研究了基于用户聚类的服装推荐技术。基于传统协同过滤算法中,由于其本身特性造成的推荐效果实时性不高以及效率低下的问题,引入用户兴趣变化模型,以及评分预测时间模型,提出基于时间和用户兴趣改变的协同过滤推荐算法,对传统过滤算法进行针对性的修改。  相似文献   

15.
对大数据的分层建树聚类,提高对大数据的检测和大数据应用系统的故障分析能力。传统方法中对大数据的分层聚类采用K-Means聚类算法,容易陷入局部收敛,聚类效果不好。提出一种基于核向量机的数据的分层建树聚类。采用四叉树算法对多维数据进行数据预处理,进行KNN中心区域的聚类中心扩展处理,针对大数据的类域交叉性进行了一次核向量机差分比较,得到KNN模糊划分矩阵,根据所属类别的不同对已知样本进行分层,得到一维差分分层建树模型和二维差分分层建树模型,计算数据核向量之间的相似度特征,实现矩阵的数据点数模糊集合贴近度填充,实现聚类算法改进。仿真结果表明,该算法具有优越的大数据聚类性能,收敛性好,应用到网络在线故障诊断中,实现对故障信号的和恢复跟踪,提高了故障诊断效益,展示了较好的应用价值。  相似文献   

16.
本文针对ADS-B数据的在固定航路不同区域误差不同,提出一种改进的聚类算法分析误差存在规律。首先根据实际数据估计飞机真实位置,将飞机真实位置与实际位置相对比得到位置误差。采用果蝇算分优化后的聚类算法对汇总的大量飞机位置误差数据进行聚类,分析位置误差在航路上的存在规律,后续可结合实际环境、系统等多方面对误差存在情况进行分析,并采取相应措施,为提高航空监视性能、保障飞机安全运行提供一定的借鉴,为航空事业的发展贡献一份力量。如付诸现实,ADS-B数据可靠性将有所保障,航空监视性能将有所提高,飞机才能更安全有效地运行,为国家和航空公司带来更大的经济效益。  相似文献   

17.
18.
19.
在数据装入数据仓库之前,应该对数据进行数据清洗.而数据清洗的核心工作就是清洗近似重复记录.聚类是将相似度高的数据对象聚集到一个类中,于是我们提出将该技术用于近似重复记录的发现上.本文主要介绍如何将SOM网络聚类强大的学习功能及良好的自组织性、自适应性和鲁棒性应用到数据清洗中。  相似文献   

20.
大学生身体素质的准确分类,直接关系到大学体育分组教学和选才评价的合理性、有效性.传统的模糊聚类分析法有传递闭包法、编网法等.编网法虽然直观,但必须画图,不适合编程应用;传递闭包法需要计算相似矩阵的传递闭包,其计算量随分类对象数目的增加而呈指数规律增加,不宜应用推广.为此,引入FCM算法,采用身体质量指数、肺活量、耐力素质、柔韧力量素质和速度灵巧素质等5个聚类特征量,对大学生身体素质进行模糊聚类分析,利用Xie-Beni有效性指标确定最佳的分类方式,并利用MATLAB软件编程辅助计算.实践证明,该方法操作简便,科学有效,便于应用推广.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号