首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 393 毫秒
1.
聚类问题的关键是把相似的事物聚集在一起,因此相似度计算是进行文档聚类的首要问题.XML模式是XML文档结构的体现,对XML文档的聚类可以通过XML模式的聚类来实现.本文提出一种基于XML模式元素的文档聚类方法,通过计算XML模式元素间的相似度来对文档进行聚类,综合考虑了XML模式中元素的结构和语义信息,进一步提高了计算相似度的精度,提高聚类的准确性,并且易于提取聚簇的通用XML模式.  相似文献   

2.
文本相似度计算是文本分类、文本聚类、自动文摘、信息抽取的基础.文本相似度计算性能直接影响到文本分类、文本聚类、自动文摘的质量.另外文本相似度还应用于诸多自然语言处理任务中,本文对文本相似度计算问题进行了深入的研究,并根据自然语言的特点提出了通过比较两个文本关键语义对来计算文本的语义相似度.  相似文献   

3.
提出了一个网络钓鱼防范系统,该系统由客户端过滤插件、后台分析中心和受保护网站3个逻辑组件构成.设计了一个基于图像的网页相似度检测算法,该算法首先将被检测网页转换为图像格式,然后采用迭代分割和收缩算法将原始图像划分为一组子图像集合,在计算子图像颜色直方图、灰度直方图以及大小参数的基础上,构建被检测网页的特征关系图(ARG),计算ARG之间的内部EMD距离,并通过计算2个网页ARG之间的外部EMD距离来标示网页之间的相似度,最终通过对不同网页之间相似度的分析检测出钓鱼网站.实验结果显示所提出的体系结构与算法具有良好的鲁棒性和可扩展性,可对钓鱼网页进行更加有效的检测.  相似文献   

4.
娱乐方式日益丰富,产生巨量数据,利用这些数据通过推荐系统可以让用户获得更好的体验,为此提出了DB-CF(DBSCAN-Collaborative Filtering)算法。首先,使用DBSCAN聚类算法对音乐平台的线下用户进行聚类|然后,通过协同过滤算法计算对象用户与各聚类中心的相似度,再通过对比相似度度量矩阵,遍历离对象用户最近的邻居,通过邻居作出评分预测。实验表明,采用DB-CF算法比传统算法准确率提高8%左右,可以产生更准确的推荐结果,为用户带来更好的体验。  相似文献   

5.
Kmeans算法存在两个主要缺陷,导致聚类结果准确率较低。为改善聚类效果,提出一种DGK-Kmeans算法。该算法选用核密度估计处理数据,得到备选聚类中心,依据平均类间相似度动态增加初始聚类中心个数,直至平均类间相似度大于前次计算值时,选取平均类内相似度最小时对应的聚类中心为初始聚类中心,进行Kmeans聚类计算。采用UCI标准数据集进行实验,证明改进后的DGK-Kmeans算法在聚类准确率和稳定性方面有很大提高。  相似文献   

6.
本文研究了如何从列表页面中抽取数据记录.系统分为两个阶段:第一步采用三种启发式方法相结合的方法,识别主数据区域的根节点;第二步将数据记录分离,提出了一种新的基于树编辑距离的聚类算法,来减少候选分割方案的数量,然后根据公式计算相似度,找出最佳分割方案.本文通过对大量不同领域的网页进行测试,结果表明本文方法具有较高的准确率.  相似文献   

7.
运用图论中的一系列思想对生物序列、蛋白质结构和基因芯片数据进行综合分析,将多物种的序列进行聚类,为生物基因的功能研究提供了新的思路.其算法首先根据生物序列的相似度、蛋白质结构的相似度和基因芯片数据的相似度建立一级图,然后根据一级图建立二级图,进而通过二级图的分析来挖掘基因的聚类关系.算法聚类的结果可以对各种基因的功能进行预测,可广泛应用于后基因组计划的基因和蛋白质研究.  相似文献   

8.
张涛 《教育技术导刊》2009,8(6):139-140
提出了一种基于用户浏览历史的用户兴趣提取模型,它隐式地收集用户信息用于个性化搜索中,即是通过对用户兴趣度的定义,在用户的浏览历史中得到一组代表用户兴趣的网页,并设计一个聚类算法,对这组代表用户兴趣的网页进行聚类操作,从而得到能代表此用户兴趣类别的词,即用户的兴趣。  相似文献   

9.
万有引力定律在聚类中的应用   总被引:2,自引:0,他引:2  
聚类是数据挖掘中的一个非常活跃的研究领域,聚类的目的就是把数据集分成不同的类,类内相似度高,类间相异度大。本文介绍了在聚类过程中经常遇到的数据结构、变量类型和聚类方法,提出了基于万有引力定律的聚类方法,使聚类的速度和效果有了进一步的提高。  相似文献   

10.
针对谱聚类算法稳定性较差的问题,提出了一种改进的半监督谱聚类算法。该算法依据图像的颜色、纹理和空间特征进行聚类,通过Bayes距离学习对相似度矩阵的内容进行修正;然后,使用半监督K—means聚类算法对调整后的特征向量进行聚类划分。仿真实验结果表明。较传统谱聚类而言该算法在准确率及稳定性上都有了显著提升。  相似文献   

11.
针对Web网络通讯过程中存储的海量数据,运用新颖的数据挖掘技术或方法,发掘出数据中隐含的规律知识.为此提出关于web网络信息挖掘系统体系结构.阐述数据方块法、属性导向归纳法在数据预处理中的应用,深入探讨粗集属性约简算法、K—means聚类分析算法等在web网络信息挖掘系统体系的应用,提出的系统体系结构可为挖掘系统的实际研发提供有效指导.  相似文献   

12.
This paper presents a new algorithm for clustering a large amount of data.We improved the ant colony clustering algorithm that uses an ant’s swarm intelligence,and tried to overcome the weakness of the classical cluster analysis methods.In our proposed algorithm,improvements in the efficiency of an agent operation were achieved,and a new function "cluster condensation" was added.Our proposed algorithm is a processing method by which a cluster size is reduced by uniting similar objects and incorporating them into the cluster condensation.Compared with classical cluster analysis methods,the number of steps required to complete the clustering can be suppressed to 1% or less by performing this procedure,and the dispersion of the result can also be reduced.Moreover,our clustering algorithm has the advantage of being possible even in a small-field cluster condensation.In addition,the number of objects that exist in the field decreases because the cluster condenses;therefore,it becomes possible to add an object to a space that has become empty.In other words,first,the majority of data is put on standby.They are then clustered,gradually adding parts of the standby data to the clustering data.The method can be adopted for a large amount of data.Numerical experiments confirmed that our proposed algorithm can theoretically applied to an unrestricted volume of data.  相似文献   

13.
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚类算法web页聚类系统设计方案,并论述了各模块的设计与实现方法.  相似文献   

14.
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。  相似文献   

15.
关联规则是数据挖掘中一个非常重要的任务,有许多针对于关联规则的挖掘算法,然而需要提高算法的有效性来处理现实世界中的数据集。基于聚类的关联规则挖掘算法法通过扫描数据库创建聚类表,将收集的事务记录放入聚类表中,通过局部聚类表的约束来产生频繁项集,不仅可以剪枝候选项集,降低数据扫描的时间,而且确保挖掘结果集的正确性。实验结果表明,基于聚类的关联规则挖掘算法比Apfiori算法有更高的执行效率。  相似文献   

16.
由于FCM算法中的初始值需要随机的设定,这种随机性不能保证每次都能达到全局最优,也就是说如果初始聚类中心的设置具有全局的特点,那么聚类的结果才能达到全局最优。因此主要针对模糊c-均值(FCM)聚类算法对初始值很敏感,而且容易陷入局部最优解的这一特点,提出了一种分布式的模糊聚类方法。首先用分治法得到模糊聚类的全局的聚类中心值,然后再用FCM进行聚类,从而克服FCM算法对初始值敏感和容易陷入局部最优解的缺陷,达到全局最优。经仿真实验证明结果是很理想的。  相似文献   

17.
传统的K—means算法对初始聚类中心敏感,聚类的结果随不同的初始输入而波动.为了消除这种敏感性,提出了一种改进的K-means算法,改善聚类算法中选取初值的依赖性,提高聚类结果的稳定性.仿真实验结果表明:改进后的K-means算法优于原始算法.  相似文献   

18.
相比较于其它聚类算法,密度峰值聚类算法可将任意形状的数据与较少的参数和高效的聚类速度结合起来。针对当某个类中出现多个密度峰值时,聚类结果缺乏准确性的问题,提出一种改进的密度峰值聚类结果有效性造成的影响,算法通过比较类簇之间的密度属性,实现动态的子簇合并,减少主观因素对算法结果的影响。通过实验与已有密度聚类算法对比,改进算法不仅很好地避免了原算法人为确定参数给实验结果造成的影响,而且具有更好的聚类性能。  相似文献   

19.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

20.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号