首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
聚类分析是数据挖掘和机器学习的一个重要分支,应用范围广,但在聚类分析过程中大量敏感信息的泄露对用户构成威胁。因此,在聚类分析过程中实现隐私保护至关重要。传统基于差分隐私(DP)的k-means聚类算法由于存在盲目选择初始中心点、对异常点敏感度较高等问题,导致在保护数据隐私时,出现聚类可用性较低的情况。针对该问题提出一种改进的基于差分隐私保护的(IDP)k-means聚类算法以提高聚类可用性,并进行理论分析和对比实验。理论分析表明,该算法满足ε-差分隐私;仿真实验结果表明,在同一隐私预算下,k-means算法改进后在聚类可用性上优于其它差分隐私k-means聚类算法,在同一数据集与同一隐私参数下,改进k-means算法在数据可用性方面比传统算法提高了将近5个百分点。  相似文献   

2.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

3.
一种K-means算法的k值优化方案   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中核心技术之一,而k-means算法在经典聚类算法中占有重要地位。针对k-means聚类算法的最佳聚类个数k不易获得,因而使得该聚类算法的应用受到限制,为此提出一种k值优化方法:通过给出大于最佳聚类数的可能聚类数,而得到优化的聚类个数。通过实例给予验证,其结果说明该方法合理有效。  相似文献   

4.
Most clustering algorithms need to describe the similarity of objects by a predefined distance function. Three distance functions which are widely used in two traditional clustering algorithms k-means and hierarchical clustering were investigated.Both theoretical analysis and detailed experimental results were given. It is shown that a distance function greatly affects clustering results and can be used to detect the outlier of a cluster by the comparison of such different results and give the shape information of clusters. In practice situation, it is suggested to use different distance function separately, compare the clustering results and pick out the "swing points". And such points may leak out more information for data analysts.  相似文献   

5.
传统的集中式聚类算法不适宜对传感器网络的分布式数据进行聚类,用遗传进化机制对传统k-means的分布式聚类算法进行优化,可得出遗传k-means聚类算法。遗传k-means聚类算法即在传感器网络中sink节点传送随机选取的初始k个簇心到各个传感器节点,在这些节点上分别用遗传k-means聚类算法将本地的数据划分到距离最近的簇,然后将簇信息在无线传感器网络里通过路由逐层上传合并汇聚到sink节点,计算k个簇心的平均值,再往下传送k个簇心,反复迭代更新直至聚类目标函数值达到最小为止。实验表明,遗传k-means聚类算法的聚类效果较好,收敛速度较快。  相似文献   

6.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

7.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

8.
针对数据挖掘算法中的聚类算法在聚类不规格形状数据点分布的处理难题,对基于密度梯度的聚类算法进行了研究。通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。阐述了基于密度梯度的聚类算法以及应用此算法进行电信行业客户细分的方法、步骤和案例。  相似文献   

9.
为了挖掘基于语义描述的煤矿安全监测数据中蕴含的生产安全信息,指导煤矿安全生产和决策,研究了基于语义描述的煤矿安全监测数据聚类分析算法.首先,阐述了煤矿安全监测数据的语义和数值混合描述方法;接着,分别给出了语义和数值数据的相似性度量方法,以及基于权重的煤矿安全监测数据的混合相似性度量方法;然后,以混合相似性度量方法为距离度量准则,并借鉴网格的思想,给出了基于网格的改进CURE聚类算法.通过煤矿安全监测数据集的仿真实验,验证了所提算法的有效性.  相似文献   

10.
数据稀疏是协同过滤预测精度的一个重要影响因素。Slope One算法使用简单的线性回归模型解决该问题,但它只使用评分数据做计算,未考虑相似性。提出一种基于用户习惯偏好相似度的Slope One算法(UPS Slope One)。UPS Slope One首先基于用户习惯偏好聚类,得到三组不同偏好的用户,然后分别计算各组评分偏差,计算时将用户习惯偏好相似度融入其中,最后使用线性回归模型预测评分。在MovieLens数据集上的实验表明,该算法可得到更高的推荐质量、预测准确性和稳定性。  相似文献   

11.
聚类分析是数据挖掘中的一个重要研究领域,面对大规模的、高维的数据,如何建立有效的聚类算法是目前一个研究热点。现已有多种直接和快速的聚类算法,但是当处理海量数据时,时间效率仍然有待提高。本文应用三角不等式原理,分别对TTSAS算法和k-means算法提出改进,避免其中冗余的距离计算,提高原算法效率。  相似文献   

12.
本文提出的利率等级模型是根据零售企业已有的销售数据并参考其它一些报表数据所得出商品的利润,用利率公式计算商品利率,然后用数据挖掘中的k-均值聚类算法对之进行建模,最终得出商品的利率等级。与传统的人为划分利率等级相比,此模型不仅很大地提高了准确度,而且也大大减少了工作量。  相似文献   

13.
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。  相似文献   

14.
典型的基于空间约束的划分聚类算法采用基于梯度下降的搜索方法,存在着易陷入局部极值和对初始值敏感的问题,因此提出带障碍的量子粒子群聚类算法。新算法重新定义了数据点绕过障碍物的距离函数,提出了粒子逃逸原则以避免聚类中心点陷入障碍物中,并且在很大程度上克服了划分聚类的缺点。实验结果证明了该算法的有效性和准确性。  相似文献   

15.
本文采用基于递归算法的去除离散点法消除孤立噪声,选用扫描边界的方法分割字符,来研究验证码自动识别技术,选择和提取稳定而又便于表示的特征向量是本系统的核心之一。本文提出了简单的字符特征提取方法:采用网格灰度特征并对该特征进行线性鉴别分析(LDA,Linear discrimlnant analysis)变换,结合最小距离分类器完成字符识别过程,通过提高训练样本数,有效解决了形近字符识别率低的问题,取得了很好的识别效果。  相似文献   

16.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

17.
提出一种基于贪心随机自适应搜索过程的聚类算法.该算法先根据密度概念构造一个约束候选列表,然后从列表中随机选取k个对象作为K均值算法的k个起始中心点.试验结果表明该算法的聚类结果比k均值算法有显著改进.  相似文献   

18.
关联规则是数据挖掘中一个非常重要的任务,有许多针对于关联规则的挖掘算法,然而需要提高算法的有效性来处理现实世界中的数据集。基于聚类的关联规则挖掘算法法通过扫描数据库创建聚类表,将收集的事务记录放入聚类表中,通过局部聚类表的约束来产生频繁项集,不仅可以剪枝候选项集,降低数据扫描的时间,而且确保挖掘结果集的正确性。实验结果表明,基于聚类的关联规则挖掘算法比Apfiori算法有更高的执行效率。  相似文献   

19.
随着智慧农业的发展,农业生产中海量数据不断涌现。在海量数据中难免存在噪声数据,这些数据不仅难以提供有效价值,还会影响信息挖掘。针对该问题,采用基于密度的DBSCAN聚类算法进行异常数据处理。鉴于DBSCAN算法对参数敏感,结合数据集本身特性与统计学思想以绘制各点之间的距离升序曲线,预估出DBSCAN的Eps参数。仿真实验结果表明,改进算法平均准确率达到99.6%,较传统算法提高了1.7个百分点,并且在10次检测中,改进算法只有3个数据判定错误,证明该参数设置方法对异常数据处理准确率更高,稳定性也更好。  相似文献   

20.
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚类算法web页聚类系统设计方案,并论述了各模块的设计与实现方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号