首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。  相似文献   

2.
李雷 《科技风》2013,(6):120
针对FCM算法主要应用于点数据聚类,不能直接处理关系型数据的缺点。本文提出了一种基于Web日志的数据挖掘聚类算法,首先对FCM算法进行改进使其能够处理关系型数据,并对算法进行了健壮性改进。然后针对传统FCM算法需要在没有先验知识的基础上,事先确定聚类类别数的缺点,引入了竞争凝聚算法(CA),与FCM算法相结合,形成了CA-FCM算法,使之能够自动确定最佳分类类别数。实验表明,CA-FCM算法的挖掘结果与FCM算法的结果相近,在用户访问会话数量不太大时性能优于FCM算法。  相似文献   

3.
较为系统的综述了当前空间聚类算法的相关研究。依据这些算法的特点,将它们归纳为两类:划分聚类算法、层次聚类算法。针对划分聚类算法,重点分析了PAM、CLARA和CLARANS算法。针对层次聚类算法,重点分析了BIRCH、CURE算法。比较了这些算法的复杂度,并介绍了相关应用。  相似文献   

4.
王鹤 《中国科技信息》2007,(15):280-281
数据挖掘是在海量的数据中寻找模式或规则的过程。数据挖掘强调的是发现知识,获得的知识类型包括关联规则、分类、回归、聚类、依赖模型等。本文对其中聚类分析技术进行了较为深入地研究与分析,提出基于信息素的蚁群聚类算法PCBP,利用信息素指导蚂蚁移动,用不同速度的蚂蚁来改善聚类质量,并在这个思想基础上提出层次化蚁群聚类方法。为人们研究聚类提供了新思路和新途径,因此本文的研究具有一定的理论和实践意义。  相似文献   

5.
基于多因素方差分析的文本向量特征挖掘算法   总被引:2,自引:0,他引:2  
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。  相似文献   

6.
针对传统的混合蛙跳聚类算法在差分进化时,随着迭代次数的增加,聚类中心矢量向模糊边缘贴近,导致搜索精度不高,陷入局部最优的问题。提出一种基于最小二乘算法的混合蛙跳优化聚类算法,引入模糊集合贴近度运算,对聚类中心矢量执行全局更新,避免模糊边缘的局部最优解贴近。仿真测试采用合成的二维数据进行数据聚类实验并应用到软件故障预测模型中,实验结果表明,采用该算法进行目标数据聚类,具有更好的寻优进化性能,聚类精度提高明显,在数据分类识别等领域具有很好的应用价值。  相似文献   

7.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。  相似文献   

8.
如何进行云计算下的数据挖掘一直以来都是研究的重点,本文针对传统挖掘算法K-meas的不足,提出基于数据采样和分布密度的改进方法来获取算法的中心点,在聚类中构造函数提高了聚类效果,并对云计算下的Map/Reduce模型进行了函数改进,仿真实验通过对不同的数据集进行实验,从聚类分析比较,系统运行时间,加速比等方面说明了本文的算法适合在云计算下的数据挖掘具有一定的优越性。  相似文献   

9.
利用数据挖掘技术对Demeter卫星数据进行分析从而发现异常数据已成为当前研究的重点,为了进一步提高异常数据发现的质量,本文提出了一种改进的聚类算法,对Demeter卫星电场数据进行异常检测,该算法首先将数据随机取样,引入信息熵理论,对PAM算法进行改进,并对卫星数据进行划分,以找到聚类中心,最后对改进算法进行了分析与比较,实验结果证明了算法的有效性。  相似文献   

10.
传统的粗糙集下挖掘算法挖掘能力有限,当海量数据类型多样化时,数据挖掘性能下降。提出一种基于绕点旋度修正的粗糙集下挖掘算法,在数据挖掘时,采用绕点的方法代表系统挖掘中的每个元素点,对于每个绕点,采用旋度评价的方法实现加权修正,通过绕点旋度修正的方法对所有的数据进行融合处理,提取出具体特征,建立数据库,采用迭代方法最大限度的提高挖掘性能。最后采用一组64维度的复杂数据进行测试实验,结果显示,基于绕点旋度修正的数据挖掘能够在大批量多样性数据时实现很好的数据挖掘,具有工程使用价值。  相似文献   

11.
传统数据挖掘方法对数据挖掘时必须为高速通信网络,而且还导致系统响应时间延长,对数据安全性产生威胁。文中以分布式环境为背景,提出基于熵值思想的聚类挖掘改进方法,实现网络多层次数据挖掘。设定网络多层次数据聚类参数,计算产生新聚类数,将该数据值作为聚类搜索范围的上限值kmax,选取合适的有效性Silhouette指标,结合最大最小距离理论设置的聚类中心,获得最佳聚类数目;运用熵值理论及动态规划思想形成改进聚类挖掘方法,运用熵值理论判定数据属性权重值,并获取多层次数据对象与邻近数据间的权重关系,将欧氏距离当作数据相似度衡量依据;利用动态规划思想计算获得最大k个数据对象,确定多层次数据挖掘聚类中心。实验证明,利用文中改进数据挖掘方法可有效挖掘网络多层次数据中的有价值信息。  相似文献   

12.
提出改进的并行化谱聚类算法。该算法对于距离矩阵与相似度矩阵进行了改进,并在其中加入了kd树技术以对大规模数据进行稀疏化处理;然后在进行数据特征计算时,将数据以拉普拉斯矩阵的方式存入Hadoop之中,通过运行Lanczos分布计算的形式得到了其向量特征;最后运用在聚类算法中的较为高效的k-means聚类算法对向量特征的转置矩阵进行处理从而得到了需要的聚类结果。仿真实验结果表明,本文所提出的谱聚类并行算法能够为大规模的数据挖掘工作带来性能的巨大提升。  相似文献   

13.
目前提出的大多数聚类融合算法在策略选择上未能同时兼顾聚类成员的多样性及质量,而且对高维数据的聚类结果均不理想,针对以上问题,本文提出一种改进的投影聚类融合算法,该算法主要在以往经典的投影聚类算法的基础上进行了改进,将投影聚类与分形维数结合,可对高维数据集进行降维聚类处理;而且该算法将选出最优参照成员,并设计出合理的选择策略,对部分优质成员进行选择,以得到一个更加准确的最终结果。高维数据聚类仿真实验结果表明,本文提出的改进的投影聚类融合算法与其他经典数据聚类融合算法相比,提高了聚类的有效性,大大提高了数据融合性能。  相似文献   

14.
本文通过吸取半监督聚类思想,提出了一种基于标记集指导的半监督聚类算法,利用驻留内存的labels集指导聚类过程,以满足大数据环境下数据挖掘的要求,并提高聚类算法的效率及质量。  相似文献   

15.
苏丹 《科技通报》2012,28(8):132-133
在对计算机算法与设计中的贪心算法、统计学中的相关系数理论、数据挖掘理论进行基本阐述之后,利用上述知识,将传统贪心算法进行了基于相关系数理论的拓展。随后,利用拓展的贪心算法对离散数据进行了分类、聚类处理。通过上述具有完全实践性的理论研究,为拓展传统的数据挖掘技术与方法,开辟了一片全新的领域。为在经济领域开展此类分析,提供了决策依据和决策工具。  相似文献   

16.
对大数据的频繁项集挖掘是关联规则挖掘的关键步骤,通过有效的频繁项挖掘提高大数据量数据库的访问效率。传统方法中对大数据的频繁项集挖掘采用FP-Growth的粗糙集挖掘算法,扩展性和容错性不好。提出一种基于贝叶斯粗糙集的大数据频繁项挖掘技术,引入后缀项表的概念,通过后缀项表的构建,保留频繁项集的完整信息。构建FP-Tree,生成闭频繁项集,计算样本的密度,并抽取高密度区域的点集作为聚类中心集合,进行后缀项表的构造,按支持度分成若干集合,对各约简集内的属性集合进行融合,用变精度粗糙集的贝叶斯粗糙进行数据挖掘算法改进,仿真结果表明,算法不受可变参数的影响,鲁棒性较高,数据挖掘的准确度较高,运行时间较短。算法将在人工智能和数据挖掘领域具有更广的应用前景。  相似文献   

17.
近年来数据生成和收集技术的发展使得面向科研、管理等领域的数据集十分庞大,从而对海量数据集进行的信息提取变得更加迫切。文章对数据挖掘的概念及所要达到的目标进行剖析,对增量数据库关联规则挖掘算法进行研究,通过举例对数据库关联规则挖掘算法的实际应用进行了分析。  相似文献   

18.
面对电力系统中海量的多维数据,传统的可视化数据挖掘无法满足空间数据处理的需要,多维数据可视化也不利于用户获取知识。因此提出了基于SOM(自组织特征映射网络)聚类的电网可视化数据挖掘新模型VSDMmodel,模型利用改进的SOM聚类算法对高维电网数据进行降维,提出一种基于颜色映射的可视化方法,对聚类结果进行低维展现,加快了用户对挖掘结果的理解,并且允许用户对结果中感兴趣的区域加以深入分析,实现对电力系统海量数据的可视化挖掘。  相似文献   

19.
数据挖掘是目前信息领域和数据库技术领域的前沿研究课题,它涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度也较大.本文研究了关联规则挖掘技术的基本概念、过程和算法等,为提高数据挖掘效率,提出了基于聚类划分的增量式关联规则挖掘算法.即运用快速聚类方法实现数据划分、运用改进的FP-growth算法实现关联规则的挖掘和运用增量FP-growth挖掘算法实现增量数据挖掘的关联规则挖掘算法.  相似文献   

20.
时空大数据在各领域中得到了持续的运用,推动着新研究模式的产生。但是,传统数据存取中、分析与挖掘方法则很难支持新研究模式的形成。时空数据的探索性增长以及社交媒体和位置传感技术的出现,使得为分析大数据而开发新的、高效的计算方法十分必要。传统的数据挖掘算法大多是基于小型数据集开展的研究,通常忽略了计算效率,而是更侧重于识别能力的研究。针对传统算法的不足,本文介绍了基于高斯混合模型(GMM)的时空大数据挖掘算法,在GPU上并行了GMM聚类算法,结果显示,模型具有较高的可扩展性和较低的计算成本,但仍需要新的方法来有效地模拟空间和节奏的限制。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号