首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
提出了一种新的多数据流聚类算法.该算法可以有效地对有相似行为但存在一定时间延迟的多数据流进行聚类.算法采用自回归模型技术度量数据流间的延迟相关,利用频谱估计来抽取数据流的特征.每一个数据流用其谱分量的和来表示,从而来计算每对数据流间的相关关系.每个谱分量用振幅、相位、衰减率、频率4个参数来描述.算法计算谱分量对之间的ε-延时相关关系,并以此为基础来得到聚类分析中数据流间距离的度量.此外,算法采用滑动窗口技术对多数据流进行聚类,实时地得出聚类结果且动态地调节聚类的个数.在人工数据集和实际数据集上的实验结果表明,所提出的算法比其他类似的算法具有更快的速度和更好的聚类效果.  相似文献   

2.
聚类分析是一种有效的入侵检测方法.可以从网络数据中区分正常流量和异常流量.本文提出一种模糊聚类分析方法,利用数据之间的相似度进行聚类,试验证明,该方法可以有效地检测网络入侵.  相似文献   

3.
粗糙集理论是有效处理不精确、不确定和含糊信息的软计算工具,模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法.网站日志数据通常是大量的,冗余的,日志中的页面之间的关系也是模糊的,不确定的.该文利用粗糙集理论和模糊聚类的方法对某学校网站的日志数据进行实例分析,抽取用户感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务.  相似文献   

4.
随着航空事业的发展,对航迹进行聚类分析,存在许多应用价值。在分析历史飞行航迹特征的基础上,将航迹看作时间序列,采用近邻传播聚类算法,对航迹进行聚类分析,得到聚类结果并进行优化分析。近邻传播算法(AP)是建立在相似度矩阵基础上进行的聚类,为了得到相似度矩阵,结合航迹不等长的特征,选择使用DTW距离作为航迹间相似性的度量;同时,使用DCT对航迹时序列进行降噪,以求得到更好的聚类效果。实验结果表明:该方法在393条航迹的数据集中,划分出11个聚类,提高了航迹聚类的准确性。  相似文献   

5.
针对低维多流形非相似结构数据,提出一种基于变化率聚类的算法。首先观察数据,按结构对数据进行分类,然后在同构的数据点之间按变化率进行划分,最终实现数据聚类。实验结果证明,该算法能够有效对低维多流形非相似结构数据进行聚类分析,聚类效果明显优于LRR、SSC等传统算法,且时间复杂度较低,有较强的适用性。  相似文献   

6.
流数据是近年来关注比较多的一种数据形式,但由于它自身的特点,无法使用传统的算法对它进行聚类分析.数据挖掘是从大规模数据库中提取感兴趣的信息.聚类是数据挖掘的重要工具,它根据数据间的相似性将数据库分成多个类,每类中数据要求尽可能相似.针对流数据的特点,引入一种采用渔夫捕鱼策略的新的聚类算法.该算法采用动态多点随机投鱼网方法,并且根据捕鱼环境的不同采用不同的探测策略.流数据聚类的捕鱼算法是一种即时更新模型的在线聚类算法.  相似文献   

7.
Kmeans算法存在两个主要缺陷,导致聚类结果准确率较低。为改善聚类效果,提出一种DGK-Kmeans算法。该算法选用核密度估计处理数据,得到备选聚类中心,依据平均类间相似度动态增加初始聚类中心个数,直至平均类间相似度大于前次计算值时,选取平均类内相似度最小时对应的聚类中心为初始聚类中心,进行Kmeans聚类计算。采用UCI标准数据集进行实验,证明改进后的DGK-Kmeans算法在聚类准确率和稳定性方面有很大提高。  相似文献   

8.
运用图论中的一系列思想对生物序列、蛋白质结构和基因芯片数据进行综合分析,将多物种的序列进行聚类,为生物基因的功能研究提供了新的思路.其算法首先根据生物序列的相似度、蛋白质结构的相似度和基因芯片数据的相似度建立一级图,然后根据一级图建立二级图,进而通过二级图的分析来挖掘基因的聚类关系.算法聚类的结果可以对各种基因的功能进行预测,可广泛应用于后基因组计划的基因和蛋白质研究.  相似文献   

9.
聚类分析是数据挖掘技术中一种常用的分析方法.将系统聚类分析法应用到考试数据分析,既有利于教师抓住学生的知识点误区,帮助学生建立学科知识网络,也有利于教师从学生的实际情况出发,根据学生存在的知识点误区和个性特点,因材施教.广州市某中学高三联考物理考试数据的聚类分析结果表明,教师采用系统聚类分析法进行考试数据分析时,既应关注聚类题目的共性,也应关注聚类题目的个性,同时还应关注具有共性的非聚类题目的个性.  相似文献   

10.
利用统计分析软件SPSS对99组实例数据进行聚类分析,包括K-means聚类、系统聚类、两步聚类三大类,其中K-means聚类包括K-means未标准化聚类和K-means标准化聚类两小类,选取判断类内紧致性指标1和类间分离性指标2综合衡量聚类结果有效性,从而比较聚类数种算法中三大聚类方法的聚类效果。实验发现,K-means聚类有效性普遍比系统聚类好,系统聚类普遍比两步聚类有效,且系统聚类分析效果随着聚类个数的增加不断改善。  相似文献   

11.
现实生活中有许多事物没有可靠的测量手段,以测量样品间的指标值或计算它们的相关值,于是我们借助模糊聚类方法达到聚类目的.我们假设对五种教学方法(也可以是教学经验)进行聚类,具体步骤如下:1.把聚类样品两两比较,并赋于相关值请有一定经验的人员对五种教学方法进行两两比较,按它们相似程度的大小赋于一个相关值,认为完全相似的,赋值为1,毫不相似的赋值为0,相似程度达到8成,则赋值0.8,如此推类.这是一种主观评估,取得的是经验值,然后求出经验值的平均值,定为两种教学方法的相关值.可以想见,同类数学方法自身总是完全相似的(即rii=1),所以相关值为1,而方法甲与方法乙互为相似的程度也总  相似文献   

12.
聚类问题的关键是把相似的事物聚集在一起,因此相似度计算是进行文档聚类的首要问题.XML模式是XML文档结构的体现,对XML文档的聚类可以通过XML模式的聚类来实现.本文提出一种基于XML模式元素的文档聚类方法,通过计算XML模式元素间的相似度来对文档进行聚类,综合考虑了XML模式中元素的结构和语义信息,进一步提高了计算相似度的精度,提高聚类的准确性,并且易于提取聚簇的通用XML模式.  相似文献   

13.
面向高维数据的聚类分析是当今数据挖掘研究的重要领域,其中的关键问题在于如何对高维数据的聚类结果进行高效率的可视化分析。针对这一问题首先使用了数据聚合树(DA树)作为代表高维数据集的数据结构,并将一个新的聚集算法(CLUK算法)应用于该数据集,获得聚类分析的结果,然后搭建了一个可视化平台(Hvis),最后利用平行坐标法在...  相似文献   

14.
为了解决数据高维、海量导致聚类算法处理效果不佳的问题,提出将流形学习理论引入客户关系管理进行聚类研究。为了较好的分析客户价值,在Kmeans聚类的基础上引入流形学习理论。客户价值分析一般包含数据的抽取、探索以及预处理、模型建立几个步骤。在模型建立过程中一般采用Kmeans聚类实现。使用流形学习的谱聚类来替代Kmeans聚类。使用泰迪杯数据挖掘大赛中的数据进行试验,通过实验的雷达图可以看出,谱聚类与Kmeans聚类具有相似的分类构成。同时对于分类后的数据进行规约并绘制散点图,比较后发现,谱聚类后的数据类间相似度比Kmeans高,表明将流形学习方法引入客户价值分析,对于聚类稳定性有一定改善。  相似文献   

15.
聚类是指按照事物间的相似性对事物进行区分和分类的过程。对网络个性化学习行为中的大量数据,首先对样本数据进行了预处理,然后运用数据挖掘算法中的K-means算法进行分类,获取各类与网络学习行为属性的关系。在Clementine中的实验结果表明,该算法能够将数据准确聚类,为教师教学培养目标的制定提供一定的决策支持。  相似文献   

16.
聚类分析广泛应用于商务智能、图像模式识别、Web搜索、生物学等领域,是一种无指导的观察式学习。然而,绝大多数聚类分析算法都面临着一个非常棘手的问题——最佳聚类数的确定。K-means是典型的基于划分的聚类方法,它需要用户输入聚类数K,但这通常非常困难。聚类数的确定是决定聚类质量的关键因素。虽然有许多被用来估计最优聚类数的聚类评价指标,但对于不同的聚类算法,不同的评价指标效果差异很大。为确定针对K-means聚类算法效果最好的评价指标,采用4种典型的不同聚类结构特征的人工模拟数据以及来自UCI的真实数据集对7种评价指标的性能进行实验比较,结果表明CH指标和I指标在评估K-means算法的最佳聚类数时效果较好。  相似文献   

17.
为提高园林绿植地被植物引种成功率,在高维数据聚类中采用相似性度量算法分析地被植物引种气候指标间相似度。选取原产于我国新疆维吾尔自治区的皱叶剪秋罗作为地被植物引种品种,新疆哈密地区为引种源地,兰州、武汉、北京、广州等市为目标引种地。以 5 座城市 2015 年气候年值数据中的 8 项气候指标作为分析指标,采用高维数据聚类分析相似性度量算法计算引种地和引种源地间气候环境相似度,依据相似度大小次序,分析遴选出与哈密地区气候环境接近的目标引种地。实验结果表明,基于高维数据聚类分析的相似性度量算法在地被植物引种气候相似性分析中可较好体现引种源地与目标引种地气候相似度,实验结果与实际情况相符。相似性度量算法可为地被植物异地引种提供辅助决策分析,使园林绿植引种更科学。  相似文献   

18.
聚类分析已成为数据挖掘研究中非常活跃的研究课题,在聚类分析方法中,基于模型的算法由于考虑到“噪声”或异常数据,可以自动确定聚类个数,可以产生鲁棒的聚类方法,而成为领域研究的一个重点。本文主要对神经网络中的竞争学习神经网络、SOFM 神经网络方法、统计学聚类方法研究。  相似文献   

19.
随着数字化学习系统的使用和流行,学生在与系统交互的过程中产生了大量的原始数据。因此,数据挖掘技术可以用来从这些数据中提取出有用的信息以改进高等教育机构的管理、教学和研究效率。例如将聚类算法、决策树和关联规则方法应用到高等教育过程中,可以帮助改进学生的学习表现、辅助选择课程和学校补助基金的最优化管理等等。本文以江南大学网络教学平台为例,采用数据挖掘技术,根据学生的相似特性对学生进行聚类分析,以分析对课程成绩影响的各种因素。另外,还对学生在课程讨论区的活跃程度进行了社会网络分析。  相似文献   

20.
利用空间坐标和属性特征的有机结合,定义了3种曼哈顿空间距离,用matlab编程给出了基于该空间距离的ACA-Cluster聚类算法,并对山东省生态环境质量进行了聚类分析和类型分区。实验表明,该方法可以较好地反映出空间位置邻近和属性特征相似的空间聚类要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号