首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 75 毫秒
1.
聚类分析广泛应用于商务智能、图像模式识别、Web搜索、生物学等领域,是一种无指导的观察式学习。然而,绝大多数聚类分析算法都面临着一个非常棘手的问题——最佳聚类数的确定。K-means是典型的基于划分的聚类方法,它需要用户输入聚类数K,但这通常非常困难。聚类数的确定是决定聚类质量的关键因素。虽然有许多被用来估计最优聚类数的聚类评价指标,但对于不同的聚类算法,不同的评价指标效果差异很大。为确定针对K-means聚类算法效果最好的评价指标,采用4种典型的不同聚类结构特征的人工模拟数据以及来自UCI的真实数据集对7种评价指标的性能进行实验比较,结果表明CH指标和I指标在评估K-means算法的最佳聚类数时效果较好。  相似文献   

2.
陈琍 《钦州学院学报》2006,21(6):36-37,41
从数据挖掘方法中常用的聚类算法的基本原理,将聚类算法中的K—means算法用于客户关系管理系统中,实现客户分类.并且对K—means算法进行了改进,根据客户信用特征对客户进行预分类,提高了算法的效率.  相似文献   

3.
重点讨论了聚类分析方法中K-means聚类算法在客户价值分析中的作用,通过对客户的现有价值和潜在价值进行分析,对客户进行细分。在此基础上,企业可结合行业的特征找出各类客户的特点,实行差异化服务策略,让更好的资源和服务提供给最有价值客户,从而达到顾客满意、企业盈利的目的。  相似文献   

4.
K-means聚类算法研究   总被引:2,自引:0,他引:2  
聚类分析是模式识别中一个重要研究领域,是一种将数据划分或分组处理的重要手段和方法.K-means算法是聚类算法中主要算法之一,文章介绍了K-means聚类算法的实现方法,并对其优点和缺点进行了详细的分析.  相似文献   

5.
介绍了web日志挖掘概念,利用改进后k-means聚类算法对网吧web日志挖掘,对网吧用户行为聚类分析,找出用户的偏爱,以便网吧管理员更好定制网吧网络管理策略.  相似文献   

6.
7.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

8.
提出一种新的层次聚类方法,着重分析了该算法的思想体系及算法实现过程。该算法具有使结果簇更紧凑和独立的效果,具有更高的效率。  相似文献   

9.
随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。  相似文献   

10.
沈泓  刘顺 《教育技术导刊》2017,16(3):103-107
阐述了如何使用数据分析模型进行数据收集分析和处理,以及如何通过K-means聚类算法及线性回归模型建立合理预估模型。电能在从发电厂传输到用户的过程中,在输电、变电、配电以及营销管理的各环节中会产生电能损耗,如果线路损耗较高,则会对电网运行的安全性与经济性造成直接影响,同时也会加快线路老化或损坏速度。合理分析预估模型,可以找出差异性较大的台区着重进行管理与监测,并于用户操作区的Web端进行展示,进而有效预测出哪些台区可能存在偷窃电行为或其它影响正常供电的不合理行为,为供电工作提供有效辅助。  相似文献   

11.
文中首先介绍了聚类分析的涵义,然后分析K-means算法的基本思想以及划分聚类的三个关键点,最后通过具体的实例讲解了K-means算法的实现。  相似文献   

12.
基于层次的模糊K均值聚类算法研究   总被引:1,自引:0,他引:1  
通过对K均值聚类算法的研究,本文提出了一种基于层次聚类与模糊聚类思想的K均值聚类算法。算法首先使用层次方法对数据进行初始聚类,然后用得到的聚类数作为模糊K均值聚类中的K值,对聚类进行修正。最后通过实验,验证了该算法不需要人为假设聚类算法中的K值,而且引入了模糊隶属关系使类别的划分更接近于事实,从而证明了该算法的有效性。  相似文献   

13.
传统的集中式聚类算法不适宜对传感器网络的分布式数据进行聚类,用遗传进化机制对传统k-means的分布式聚类算法进行优化,可得出遗传k-means聚类算法。遗传k-means聚类算法即在传感器网络中sink节点传送随机选取的初始k个簇心到各个传感器节点,在这些节点上分别用遗传k-means聚类算法将本地的数据划分到距离最近的簇,然后将簇信息在无线传感器网络里通过路由逐层上传合并汇聚到sink节点,计算k个簇心的平均值,再往下传送k个簇心,反复迭代更新直至聚类目标函数值达到最小为止。实验表明,遗传k-means聚类算法的聚类效果较好,收敛速度较快。  相似文献   

14.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

15.
基于K-means聚类算法的网络个性化学习行为研究   总被引:1,自引:0,他引:1  
聚类是指按照事物间的相似性对事物进行区分和分类的过程。对网络个性化学习行为中的大量数据,首先对样本数据进行了预处理,然后运用数据挖掘算法中的K-means算法进行分类,获取各类与网络学习行为属性的关系。在Clementine中的实验结果表明,该算法能够将数据准确聚类,为教师教学培养目标的制定提供一定的决策支持。  相似文献   

16.
政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆 。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。  相似文献   

17.
由主动进化思想提出一种基于中心定位算子的遗传算法(GCOGA)。GCOGA算法通过对聚类中心的个数和选取进行指导,解决了常规k-means聚类方法对初始聚类中心的敏感性以及聚类结果与样本输入次序有关等问题。实验结果显示,该算法避免了k-means方法中对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,效果更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号