首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
在云计算环境下,针对K-means对初始聚类中心敏感和易陷入局部最优的缺点,进行K-means聚类中心优化求解,提高对海量数据的聚类处理能力。传统方法采用动态干扰信任感推荐方法进行数据聚类中心求解,聚类中心对初始值敏感性较强,数据聚类效果不好。提出一种基于粒子群密度最大距离凹函数构建和边界隶属度特征分析的云计算中K-means聚类中心优化求解方法。通过云计算处理,对数据聚类余下样本点按照与聚类中心的相似程度来划分成k类,对原始变量数据的差异化特征进行降维处理,通过搜索空间中的粒子,每一个粒子自身都有速度、位置和适应度,通过迭代找到最优解,进行数据规范化预处理,数据预处理包括选择数量,类型和特征的标度,进行边界隶属度特征分析,实现云计算数据的聚类改进。仿真结果表面,该算法对云计算数据的聚类性能优越,聚类中心求解准确,克服了传统的K-means对初始聚类中心敏感和易陷入局部最优的缺点,应用价值较大。  相似文献   

2.
提出改进的并行化谱聚类算法。该算法对于距离矩阵与相似度矩阵进行了改进,并在其中加入了kd树技术以对大规模数据进行稀疏化处理;然后在进行数据特征计算时,将数据以拉普拉斯矩阵的方式存入Hadoop之中,通过运行Lanczos分布计算的形式得到了其向量特征;最后运用在聚类算法中的较为高效的k-means聚类算法对向量特征的转置矩阵进行处理从而得到了需要的聚类结果。仿真实验结果表明,本文所提出的谱聚类并行算法能够为大规模的数据挖掘工作带来性能的巨大提升。  相似文献   

3.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

4.
郭文娟 《科技风》2022,(4):63-65
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法.该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取.UCI机器学习数据...  相似文献   

5.
基于模糊商空间的模糊C-均值算法(QFCM)是在模糊商空间和模糊模糊C-均值(FCM)的基础上提出的。通过引入相似函数并构造出归一化距离,得到模糊商空间的分层递阶的结构,在此基础上提出了基于粒度思想的准则函数并选择出一个最佳层次,从而确定聚类的个数,并选择具有相似度高的样本作为初始聚类中心,结合鲁棒性统计观点运用归一化距离来替代FCM目标函数中的欧式距离度量,提出了QFCM算法。实验证明与传统的算法比较,QFCM算法能够自动确定最佳聚类数目,发现大小不均的聚类,迭代次数少,有效地消除了传统FCM算法对初始值敏感,提高了算法的稳定性和准确率。  相似文献   

6.
提出一种基于数据倾斜关联度的数据高效算法,首次给出数据倾斜度的概念,利用数据类间特征进行数据倾斜程度的判断,对相似数据进行类间聚类,将数据库中数据特征进行信息相似度计算,计算概念总出现次数时应累加其所有子概念的出现次数。在查询的过程中,充分考虑同一数据属性的多样性,对数据特征加入模型的数量进行约束,减少不必要的繁琐数据特征。判断符合查询条件的数据类别,根据不同的数据类别进行数据查询,实现数据结构的优化。实验结果表明,利用这种算法进行数据库查询优化,能够有效提高海量数据库信息查询的效率。  相似文献   

7.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。  相似文献   

8.
为了分析贵州乌蒙山绿色植被退化趋势,提出针对贵州乌蒙山区绿色植被覆盖率退化趋势的图像分析方法。获取NDVI遥感图像数据信息,运用基于纹理特征的ISODATA算法提取植被图像中每个像素点的纹理特征、位置特征等综合特点,形成特征矢量结构空间;在特征空间中,利用ISODATA算法主动调整参数获取初始聚类数量及聚类中心后,进行区域分割,获取图像区域特征信息;然后建立像元二分模型对植被覆盖度图像特征信息进行分析,通过计算不同年份植被覆盖率对绿色植被覆盖率退化趋势进行预测。实验结果证明,改进的图像分析方法可以对贵州乌蒙山区绿色植被覆盖率退化趋势进行准确分析,精度较高。  相似文献   

9.
王华秋  王重阳  聂珍 《现代情报》2016,36(2):129-134
图像聚类为数字图书馆图像管理提供了新的技术支持,能够在大量图像数据中发掘使用户感兴趣的信息。传统应用于图像聚类的特征提取算法往往忽略图像颜色的空间分布信息,且适应性较差。通过等面积矩形环对图像进行划分并计算各空间区域的相关性,并根据空间区域相关性计算各区域的重要性,将空间信息与颜色信息进行融合。同时对快速搜索密度峰值聚类算法的截断距离进行了合理改进,在保证聚类精度的同时提高收敛速度。最后将该密度聚类算法应用于数字图书馆图像检索之中。通过实验验证,本文提出的方法是可行的、有效的。  相似文献   

10.
密度峰值聚类(Density peaks clustering简称DPC)算法是2014年在美国Science期刊上发表的一种非常简洁优美的聚类算法,它不需要像经典K-means算法那样迭代,也不需要很多参数。DPC算法的核心思想在于对聚类中心的刻画,它通过计算数据集中每个数据点的局部密度和该点到具有更高局部密度的点的最小距离,当数据点的■的值较大时,该点为聚类中心。然而通过分析,发现这样选取聚类中心得聚类效果不具有稳健性,依赖于和的量纲。本文提出一种改进的密度峰值聚类算法,将和归一化后的和记为每个点的权重,构造函数■作为选取聚类中心的判决函数,结合模拟计算,验证本文的方法更鲁棒,选取聚类中心效果更好,且复杂度降低。  相似文献   

11.
针对传统的混合蛙跳聚类算法在差分进化时,随着迭代次数的增加,聚类中心矢量向模糊边缘贴近,导致搜索精度不高,陷入局部最优的问题。提出一种基于最小二乘算法的混合蛙跳优化聚类算法,引入模糊集合贴近度运算,对聚类中心矢量执行全局更新,避免模糊边缘的局部最优解贴近。仿真测试采用合成的二维数据进行数据聚类实验并应用到软件故障预测模型中,实验结果表明,采用该算法进行目标数据聚类,具有更好的寻优进化性能,聚类精度提高明显,在数据分类识别等领域具有很好的应用价值。  相似文献   

12.
姜楠  许维胜 《大众科技》2015,(1):26-28,39
校园一卡通系统通过对各种信息、资源的有效集成、整合和优化,能够实现学校对信息的有效配置和充分利用。文章采用数据挖掘技术针对学生校园消费活动的管理分析方面进行深入研究,首先通过数据预处理技术提取相关消费特征,并采用一种优化的K-means聚类算法,将学生分为几类,分析行为特征,以便高校学生工作人员分门别类的进行学生管理,最后将聚类结果输入决策树分类模型进行评估,以评价聚类结果。  相似文献   

13.
传统数据挖掘方法对数据挖掘时必须为高速通信网络,而且还导致系统响应时间延长,对数据安全性产生威胁。文中以分布式环境为背景,提出基于熵值思想的聚类挖掘改进方法,实现网络多层次数据挖掘。设定网络多层次数据聚类参数,计算产生新聚类数,将该数据值作为聚类搜索范围的上限值kmax,选取合适的有效性Silhouette指标,结合最大最小距离理论设置的聚类中心,获得最佳聚类数目;运用熵值理论及动态规划思想形成改进聚类挖掘方法,运用熵值理论判定数据属性权重值,并获取多层次数据对象与邻近数据间的权重关系,将欧氏距离当作数据相似度衡量依据;利用动态规划思想计算获得最大k个数据对象,确定多层次数据挖掘聚类中心。实验证明,利用文中改进数据挖掘方法可有效挖掘网络多层次数据中的有价值信息。  相似文献   

14.
李勇男 《现代情报》2018,38(1):51-55
[目的/意义]聚类分析是数据挖掘的常用方法之一,使用聚类簇内数据相似性大、簇间数据相似性小的特点,可以实现对海量基础涉恐数据快速、准确、有效的分组。[方法/过程]本文研究如何利用基于雅卡尔系数的聚类方法对涉恐情报进行分析。在聚类之前要删减与涉恐相关性小的属性并将所有连续属性进行离散化处理。通过不断迭代计算样本数据集的雅卡尔系数并更新不同簇中的元素,直到达到设定的终止条件为止实现涉恐情报的聚类。[结果/结论]文中的方法可以实现对涉恐基础数据的初步分级分类,同时通过有经验的情报分析员定级以及与数据挖掘分类方法结合使用,可以有效提高情报分析的效率,为反恐预警提供量化的参考依据。  相似文献   

15.
伴随着网络技术的持续发展,新时代的数据多数是非结构化类型的数据信息,其特征向量的维数较高,过多的维数会引发维度灾难,通过引入特征选择的模式对于冗余特征进行检测,数据信息的特征子集能够准确获得,实现降维目标.随后由聚类成员质量以及数据差异入手,总结出适于高维数据信息分层抽样的算法.结果表明,此算法具备良好的聚类优势.此研...  相似文献   

16.
为了实现对高光谱遥感影像的高效压缩,提出了一种基于线性迭代聚类的高光谱遥感影像分割算法。首先,采用线性迭代聚类算法对图像过分割,在得到不同尺度上的超像素后,用联合稀疏表示分类方法对多尺度超像素进行分类。其次,通过选择合适大小的超像素,来构造相应空间下的图像中像素之间的特征差异;最后,通过线性迭代聚类算法把具有相似性特征的像素聚类。实验结果表明该方法能够得到较好的效果。  相似文献   

17.
王彦慈 《情报科学》2017,35(8):23-27
【目的/意义】当前微博已成为重要的舆论场,针对海量微博信息的舆情难以快速获取的问题,提出一种基 于云计算的微博舆情流式快速自聚类方法。【方法/过程】该方法首先设计舆情最小距离聚类算法,包括构建舆情相 似度计算模型,及构建舆情最佳聚类阈值确定方法;然后构建舆情流式自聚类模型,该模型利用云计算和最小距离 聚类算法在横、纵两个方向聚类舆情信息,得到各主题的舆情集合。在横向上,以云计算的多个计算节点为聚类起 始,同步并行聚类分配到其上的舆情信息。在纵向上,多个计算节点协同、流水线式聚类同一起始节点的舆情信 息;最后在纵向上聚类舆情集合,将同主题舆情集合聚为一类。【结果/结论】实验结果表明:该方法能有效加快微博 舆情获取速度,且具有较高的舆情获取准确率。  相似文献   

18.
恐怖人员在网络中发送恐怖信息时,根据恐怖信息来源的网络节点能够实现对恐怖人员的准确定位。恐怖人员发送恐怖信息与正常信息的属性不同,伪装性较强。利用传统的恐怖信息挖掘方法进行恐怖人员定位时,固有的恐怖信息被伪装,难以进行恐怖信息的准确挖掘,造成恐怖人员定位准确性降低。为此,提出一种基于聚类算法的网络中恐怖信息挖掘方法。在网络信息中筛选有价值的恐怖信息特征,从而为恐怖信息挖掘提供依据。利用聚类算法,对所有恐怖信息特征进行聚类处理,能够实现对网络中恐怖信息的挖掘,最终实现了对恐怖人员的定位。实验结果表明,利用该方法进行网络中恐怖信息挖掘,能够实现对恐怖人员的准确定位。  相似文献   

19.
对缓冲区的溢出类漏洞的线性预测是提高漏洞挖掘效率的重要一环,传统方法采用粒子群扰动聚类方法进行溢出类漏洞的预测和挖掘,存在预测精度不准的问题。提出一中基于模因组融合信息度传递的缓冲区溢出漏洞线性预测方法,实现对安全漏洞的准确检测。采用四叉树算法对混合粒子群多维数据进行数据预处理,采用模因组融合信息度传递,结合高斯变异对其进行扰动以代替随机产生新粒子个体的操作,实现对海量多模态数据的优化聚类和线性预测。实验结果表明,算法能准确跟踪溢出类漏洞的演化轨迹,实现对溢出类漏洞的线性预测,预测精度提高24.3%,漏洞挖掘性能提高,保证了应用信息应用环境安全。  相似文献   

20.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号