首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

2.
非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。  相似文献   

3.
地理位置作为用户生活轨迹的具体表现,在人群分类中有着举足轻重的作用。地理位置数据具有高维稀疏性,已有人群分类方法需对位置数据进行特征选择并提前确定特征数,实际应用中存在不便。针对该问题,提出基于地理位置人群分类的一种非参数聚类方法。该方法首先利用分层狄利克雷过程(Hierarchical Dirichlet Process,HDP)无监督学习出最佳特征个数;然后利用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)对位置数据进行特征选取,同时得到功能特征概率矩阵;最后将其作为聚类权向量计算用户间的相似度,利用亲和力聚类(Affinity Propagation,AP)实现人群分类。实验结果表明,该方法较传统方法消耗时间更少、占用内存更低,且同时具有较高的F measure。  相似文献   

4.
数据量的增长、数据复杂性日益突出对数据分析提出了更高的挑战.针对不规则形状分布的大规模数据,基于数据的本质特征对简单聚类策略进行研究,同时对采用并行方法提高分析效率进行了思考.模拟实验表明,这种方法能够有效识别复杂分布的类别边界.  相似文献   

5.
提出了一种基于郭涛算法的聚类算法,在WEKA平台上通过使用Iris数据集和Glass数据集对基于郭涛算法的聚类算法和K-means算法进行对比实验,验证了基于郭涛算法的聚类算法的有效性。  相似文献   

6.
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。  相似文献   

7.
聚类和粒度具有天然的相通性,本文探讨了基于粒度聚类算法的一般框架,并基于该框架,研究了一种基于网格密度的文本聚类算法,最后以例证说明这一方法的可行性。  相似文献   

8.
K-Means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-Means算法的局限性日益突出。基于网格划分的思想,提出了一种基于网格的K-Means聚类算法,该算法使用了网格技术在一定程度上去除了孤立点和噪声数据,减少了原始K-Means算法将大的聚类分开的可能。实验表明,该算法能处理任意形状和大小的聚类,对孤立点和噪声数据也能很好地识别,并且在去除孤立点和噪声数据方面可以达到较好的精度。  相似文献   

9.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

10.
提出了一种基于网格密度的聚类算法(DGCA)。该算法主要利用网格技术去除数据集中的部分孤立点或噪声数据,对类的边缘节点使用一种边缘节点判断函数进行提取,最后利用相近值的方法进行聚类。实验表明,DGCA算法能够很好地识别出孤立点或噪声,聚类结果可以达到一个较高的精度。  相似文献   

11.
针对传统的模糊聚类算法(FCM)的不足,提出了具体的改进和提高方法,通过修改聚类目标函数来提高算法处理噪音点的能力和体现样本空间各维度对聚类效果的价值。最后通过实验比较证明了算法的有效性。  相似文献   

12.
提出一种基于模糊相似性度量的谱聚类算法,将其应用于高光谱遥感图像分类,利用模糊相似性度量获取锚点和样本点与锚点之间的模糊相似度,得到相似矩阵,并利用谱聚类进行图像分类.实验结果表明,所提聚类算法能够成功应用于高光谱遥感图像分类,且模糊相似性度量的引入获得了鲁棒性更好的相似矩阵,与现有方法相比,所提算法具有更好的高光谱遥...  相似文献   

13.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

14.
本文提出一种新的基于聚类的网格简化方法。算法的简化过程从简单模型向复杂模型过渡。算法可根据给定的误差进行简化,整个简化过程由一个八叉树进行组织,简化过程中的简化平面由模糊推理得到。该算法便于数据组织,易于精度控制。  相似文献   

15.
提出一种基于贪心随机自适应搜索过程的聚类算法.该算法先根据密度概念构造一个约束候选列表,然后从列表中随机选取k个对象作为K均值算法的k个起始中心点.试验结果表明该算法的聚类结果比k均值算法有显著改进.  相似文献   

16.
搜索引擎是目前最主要的WWW信息检索的工具,然而,用户对当前搜索引擎的检索效果并不满意.论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软)聚类算法HTSC.对HTSC算法进行了理论分析,并对其中的核心算法进行了初步的实验验证.该算法可对搜索引擎返回的结果进行模糊聚类,以方便用户从中找到真正需要的信息.  相似文献   

17.
利用统计分析软件SPSS对99组实例数据进行聚类分析,包括K-means聚类、系统聚类、两步聚类三大类,其中K-means聚类包括K-means未标准化聚类和K-means标准化聚类两小类,选取判断类内紧致性指标1和类间分离性指标2综合衡量聚类结果有效性,从而比较聚类数种算法中三大聚类方法的聚类效果。实验发现,K-means聚类有效性普遍比系统聚类好,系统聚类普遍比两步聚类有效,且系统聚类分析效果随着聚类个数的增加不断改善。  相似文献   

18.
针对电子商务系统中大多采取用户评分或购买数据进行聚类,较少进一步分析用户行为的现状,提出一种根据用户浏览商品时序分析用户兴趣的方法 .在此基础上先用Canopy算法进行数据预处理后使用K-均值算法根据用户兴趣实现用户聚类.采用KDD CUP2000数据集中的用户点击流数据中的用户浏览记录对算法进行实验,实验结果表明算法有较好的聚类结果 .  相似文献   

19.
提出一种新颖的基于谱聚类的音频聚类算法,首先对音频数据进行预处理,得到三维音频向量,然后根据向量之间的距离计算音频相似度,最后设计谱聚类算法获得音频数据聚类结果。在网易云音乐数据上的对比实验表明,与K means算法和快速查找密度峰值聚类算法相比,该算法获得的聚类结果更加优越。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号