首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
利用数据挖掘技术对Demeter卫星数据进行分析从而发现异常数据已成为当前研究的重点,为了进一步提高异常数据发现的质量,本文提出了一种改进的聚类算法,对Demeter卫星电场数据进行异常检测,该算法首先将数据随机取样,引入信息熵理论,对PAM算法进行改进,并对卫星数据进行划分,以找到聚类中心,最后对改进算法进行了分析与比较,实验结果证明了算法的有效性。  相似文献   

2.
张蓉  钟艳 《科技通报》2014,(4):47-49
为开发高效的数据挖掘算法,实现模糊集聚类算法的高效性,将BIRCH聚类算法思想与模糊集算法进行融合。通过对模糊集算法处理的数据进行二次聚类计算,细化群边缘,最后加载判别函数进行数据定位,完成数据挖掘。最后使用KDDCUP2011数据库进行仿真实验,对目标数据进行挖掘,证实了融合BIRCH聚类算法思想的模糊集算法具有可行性,对比改进前的算法在数据挖掘方面效率更高。  相似文献   

3.
如何能够在云计算环境下发现、获得有效的资源是目前数据挖掘的重要研究方向,针对云计算下的Aprior算法存在的负载度强和存储空间大的缺点,提出了对云计算模型MapReduce模型进行改进,并在此基础上改进FCM算法,将数据挖掘过程分为Job1,决策,Job2三个阶段,改进后的FCM能够更加的适应云计算下的数据挖掘,通过在Hadoop平台上的实验说明本文的算法提高了效率。  相似文献   

4.
提出改进的并行化谱聚类算法。该算法对于距离矩阵与相似度矩阵进行了改进,并在其中加入了kd树技术以对大规模数据进行稀疏化处理;然后在进行数据特征计算时,将数据以拉普拉斯矩阵的方式存入Hadoop之中,通过运行Lanczos分布计算的形式得到了其向量特征;最后运用在聚类算法中的较为高效的k-means聚类算法对向量特征的转置矩阵进行处理从而得到了需要的聚类结果。仿真实验结果表明,本文所提出的谱聚类并行算法能够为大规模的数据挖掘工作带来性能的巨大提升。  相似文献   

5.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

6.
李雷 《科技风》2013,(6):120
针对FCM算法主要应用于点数据聚类,不能直接处理关系型数据的缺点。本文提出了一种基于Web日志的数据挖掘聚类算法,首先对FCM算法进行改进使其能够处理关系型数据,并对算法进行了健壮性改进。然后针对传统FCM算法需要在没有先验知识的基础上,事先确定聚类类别数的缺点,引入了竞争凝聚算法(CA),与FCM算法相结合,形成了CA-FCM算法,使之能够自动确定最佳分类类别数。实验表明,CA-FCM算法的挖掘结果与FCM算法的结果相近,在用户访问会话数量不太大时性能优于FCM算法。  相似文献   

7.
传统的蚁群算法在迭代过程中产生逆转变异,新的结点与链路也可能在任意时刻加入到云中,给电网系统云数据的云计算和故障数据预测检测带来很大难度,出现拥塞控制,导致聚类效果不好。结合云计算处理数据的特点,对传统的蚁群算法进行改进,提出一种改进的蚁群引导电网系统云数据聚类和故障检测算法,根据基因位随机数大小决定输出概率的精度,更新状态类别充分统计量,得到故障特征观测概率和初始概率,执行聚类中心更新规则。搭建的Hadoop集群云计算原型系统,在开源的云计算平台框架和HBase电网系统数据库下进行数据采集和算法实现。仿真结果表明,算法在数据聚类和故障检测中具有较好的应用性能。  相似文献   

8.
随着大数据等概念运用到互联网中,如何针对大数据下的用户行为进行分析成为了研究的热点,本文首先分析了云计算下的Hadoop框架,其次对用户网络行为进行了分析,最后采用基于Web日志挖掘的用户行为聚类方法;(1)构建用户行为的挖掘模型,(2)建立聚类问题优化模型,(3)采用基于混沌的人工蚁群算法对其进行聚类分析。实验说明本文算法具有比较好的聚类效果。  相似文献   

9.
伴随着数据库技术以及海量数据不断产生,如何最大限度的挖掘数据成为了目前云计算下环境下的研究热点,本文首先分析了云计算下的聚类算法存在的不足,其次,将模拟退火算法和遗传算法运用到聚类分析中,依靠模拟退火算法的良好局部搜索能力和遗传算法的全局搜索能力,构造矢量量化器,提高聚类的效果。通过仿真实验说明,本文算法在标准效率,加速比和扩展效率方面都具有明显的提高。  相似文献   

10.
目前提出的大多数聚类融合算法在策略选择上未能同时兼顾聚类成员的多样性及质量,而且对高维数据的聚类结果均不理想,针对以上问题,本文提出一种改进的投影聚类融合算法,该算法主要在以往经典的投影聚类算法的基础上进行了改进,将投影聚类与分形维数结合,可对高维数据集进行降维聚类处理;而且该算法将选出最优参照成员,并设计出合理的选择策略,对部分优质成员进行选择,以得到一个更加准确的最终结果。高维数据聚类仿真实验结果表明,本文提出的改进的投影聚类融合算法与其他经典数据聚类融合算法相比,提高了聚类的有效性,大大提高了数据融合性能。  相似文献   

11.
针对K-means聚类算法中的k值确定给聚类算法效果带来不确定性的问题,本文通过引入多层变量加权概念,提高聚类效果的收敛性,引入改进的非加权组平均法和最大最小距离算法有效的解决k值确定问题,引入Max-Entropy算法解决分布簇内节点分布不均导致的计算问题。仿真实验中,将本文算法的改进的效果进行研究,并结合云计算环境下通过使用本文算法在挖掘的加速比,花费时间上都取得了比较好的效果。  相似文献   

12.
云计算中的资源具有实时性、动态性、随机性等特点,传统的数据挖掘方法已经达到满意的预测效果。本文提出了一种基于云计算的数据挖掘方法,首先收集云计算中的数据资源,通过关联规则对其分类,然后将分类后的云计算资源作为学习样本进行支持向量机的输入,利用改进的粒子群算法来选择向量机的最优参数,建立优化的模型。仿真平台说明本文的算法有效的提高云计算下的数据挖掘效果。  相似文献   

13.
随着计算机技术和互联网的飞速发展,Web2.0的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。Hadoop作为一款比较成熟的开源云计算框架,以其高效、可扩展、低成本等优点在数据挖掘的相关领域得到了广泛应用。通过对改进算法的详细阐述和设计,结合实例论证了改进算法的可行性,并对改进算法进行了分析。通过实例分析,得到改进算法具有更高的效率,降低了时间复杂度和空间复杂度。云计算给数据挖掘算法的改进带来了新的方式,数据挖掘将成为未来的研究趋势。  相似文献   

14.
徐浙君 《科技通报》2019,35(2):54-58
云计算下的数据挖掘一直都是研究的重点,本文以基本的Apriori算法为基础,提出了构建适合云计算下的数据集分解方式,减少扫描数据库次数和减少频繁项集自连接比较次数的三个策略,并从挖掘频繁1项集,2项集和多项集进行描述。仿真实验中将本文算法与基本Apriori算法、改进的Apriori算法进行比较,取得了比较好的效果。  相似文献   

15.
在云计算环境下,针对K-means对初始聚类中心敏感和易陷入局部最优的缺点,进行K-means聚类中心优化求解,提高对海量数据的聚类处理能力。传统方法采用动态干扰信任感推荐方法进行数据聚类中心求解,聚类中心对初始值敏感性较强,数据聚类效果不好。提出一种基于粒子群密度最大距离凹函数构建和边界隶属度特征分析的云计算中K-means聚类中心优化求解方法。通过云计算处理,对数据聚类余下样本点按照与聚类中心的相似程度来划分成k类,对原始变量数据的差异化特征进行降维处理,通过搜索空间中的粒子,每一个粒子自身都有速度、位置和适应度,通过迭代找到最优解,进行数据规范化预处理,数据预处理包括选择数量,类型和特征的标度,进行边界隶属度特征分析,实现云计算数据的聚类改进。仿真结果表面,该算法对云计算数据的聚类性能优越,聚类中心求解准确,克服了传统的K-means对初始聚类中心敏感和易陷入局部最优的缺点,应用价值较大。  相似文献   

16.
付淇  黎虹  李广振 《科技广场》2010,(1):237-240
流数据挖掘技术是数据挖掘领域的新研究方向之一,而聚类研究又是其重要的内容。本文介绍了流数据基本特点,在统一流聚类表示模型的基础上,对现有流数据聚类算法进行了总结,并进一步提出了流数据聚类技术的研究方向和前景。  相似文献   

17.
对海量数据信息进行迭代聚类能够为数据挖掘提供准确的依据,具有重要的应用价值。传统算法对于初始参数的选取过于敏感,从而降低了迭代聚类的准确率。提出基于并归聚类的海量数据信息中的迭代聚类方法。采用离差隶属度进行数据信息聚类中心的计算,确定数据信息的聚类中心;采用类间距离作为并归聚类判别的标准,用于判定数据信息特征与聚类中心的距离;对海量数据信息特征与聚类中心的计算结果进行归类处理,直至所有的数据信息的聚类中心都结束并归,从而获得准确的迭代聚类结果。仿真实验结果表明,改进算法能够提高海量数据信息中的迭代聚类结果,效果令人满意。  相似文献   

18.
如何能够更好的挖掘云计算下的数据信息一直以来都是研究的热点,首先分析了云计算下的SOA架构,其次在架构中采用了多核向量机的云计算数据挖掘技术,提出了基于SOCP的多核向量机挖掘思路,通过多校核对和模型推导证明了本文挖掘分类算法的可行性。实验采用了基于SOA架构的销售管理系统作为数据来源,通过实验说明本文算法能够有效的节省挖掘时间,提高挖掘效率。  相似文献   

19.
针对K-means聚类算法无法确定k值,并容易忽视在多维角度下进行聚类的缺点,本文提出了改进的多维度的加权的算法,在自适应K-means聚类算法的基础上引入了视图权重和变量权重,得到了包含多层变量的目标函数,通过数学证明使得目标函数最小化,得到最优的聚类效果。实验采用3个标准数据集作为聚类研究的对象,通过与FCM算法比较,说明了本文算法在聚类方面具有良好的效果。  相似文献   

20.
本文通过吸取半监督聚类思想,提出了一种基于标记集指导的半监督聚类算法,利用驻留内存的labels集指导聚类过程,以满足大数据环境下数据挖掘的要求,并提高聚类算法的效率及质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号