首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
一种基于密度最大值的聚类算法   总被引:1,自引:0,他引:1  
提出了一种结合了基于密度聚类思想的划分聚类方法——"密度最大值聚类算法(MDCA)",以最大密度对象作为起始点,通过考察最大密度对象所处空间区域的密度分布情况来划分基本簇,并合并基本簇获得最终的簇划分.实验表明,MDCA能够自动确定簇数量,并有效发现任意形状的簇,对于未知数据集的处理能力和聚类准确度都优于传统的基于划分聚类算法.  相似文献   

2.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

3.
郭伟光  汪本强  杨学春 《情报杂志》2015,(2):159-163,158
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。  相似文献   

4.
基于数据挖掘的DBSCAN算法及其应用   总被引:1,自引:0,他引:1  
利用基于数据挖掘技术的DBSCAN算法,提出了解决图像分割的新方法.把数字图像按照点的分布情况建立图像样本数据库,然后使用密度聚类法,利用DBSCAN算法进行图像分割.它能找到图像样本比较密集的部分,并且概括出图像样本相对比较集中的类,并可在带有"噪声"的图像中进行聚类,完成图像分割,有较强的抗"噪声"能力.  相似文献   

5.
客观聚类在客户价值细分中的研究   总被引:1,自引:1,他引:0  
聚类在商业研究中广泛应用于对未知特征的客户群进行价值细分.分析了传统细分方法对于细分客户初始条件敏感的弱点,与其他聚类方法相比,客观聚类方法不需要借助领域专家的知识,能够自动、客观地确定聚类个数及最优聚类方案.在回顾了价值细分方法选取的基础上,采用客观聚类方法进行客户价值细分.通过对算法步骤的分析,提出新一致性准则及算法的实施步骤,并将其应用于客户价值细分中.最后,通过实证对比研究,结果表明了新算法具有无需预先指定聚类数的特点,使得细分结果更加准确.  相似文献   

6.
基于马尔可夫模型的图书馆用户聚类分群方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
吴艳玲  孙思阳 《情报科学》2021,39(11):167-172
【目的/意义】针对图书馆用户群体聚类分群不稳定且错误率较高的问题,提出基于马尔可夫模型的图书馆 用户聚类分群方法,提升图书馆用户聚类分群精准度。【方法/过程】采用一阶马尔可夫混合模型构建用户动作序列 模型,通过模型产生用户行为聚类,体现用户动作的动态性,采用自适应自然梯度算法,依据用户行为分离状态自 适应调整自身步长,优化模型参数学习中模型自动选择问题,实现最佳图书馆用户聚类分群。【结果/结论】通过实 验结果能够证明,实际聚类数量小于L值时,提出方法能够实现参数学习过程中模型的自动选择。提出方法的分群 数量最多,能够划分出最大的取值区间,聚类错误率最低为0.22%,聚类性能比较稳定,分群结果更加精准,达到了 设计的预期。【创新/局限】采用一阶马尔可夫混合模型实现了图书馆用户聚类分群。后续将进一步研究可考虑用 户序列间关联的高阶马尔可夫分量模型,以提高分群算法的准确性和稳定性。  相似文献   

7.
李雷 《科技风》2013,(6):120
针对FCM算法主要应用于点数据聚类,不能直接处理关系型数据的缺点。本文提出了一种基于Web日志的数据挖掘聚类算法,首先对FCM算法进行改进使其能够处理关系型数据,并对算法进行了健壮性改进。然后针对传统FCM算法需要在没有先验知识的基础上,事先确定聚类类别数的缺点,引入了竞争凝聚算法(CA),与FCM算法相结合,形成了CA-FCM算法,使之能够自动确定最佳分类类别数。实验表明,CA-FCM算法的挖掘结果与FCM算法的结果相近,在用户访问会话数量不太大时性能优于FCM算法。  相似文献   

8.
李法运  农罗锋 《情报科学》2013,(2):34-37,44
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。  相似文献   

9.
将聚类集成技术应用到CRM中的客户细分研究,以提高聚类性能.将客观聚类分析(OCA)方法作为基聚类器,克服了传统的细分方法不能客观确定聚类数目的缺点.实证结果表明该方法不仅提高了客户细分的准确性,而且能够自动、客观地确定聚类个数及最优聚类方案.  相似文献   

10.
湛燕  陈昊 《大众科技》2010,(6):63-64
无导师聚类过程中将数据集合分割成几个类是一个很难确定的问题,目前还没有较好的解决方法。文章使用粒子群优化算法应用于无导师聚类算法——K-均值的参数学习,实现了使用粒子群优化算法进行聚类中心参数的确定,旨在提供一种选择中心参数个数的方法,同时给出了适应于聚类参数学习的粒子群fitness函数算法设计。通过对UCI机器学习数据库中的7个数据库进行实验,证实此方法是比较有效的。  相似文献   

11.
In this paper, we present a novel clustering algorithm to generate a number of candidate clusters from other web search results. The candidate clusters generate a connective relation among the clusters and the relation is semantic. Moreover, the algorithm also contains the following attractive properties: (1) it can be applied to multilingual web documents, (2) it improves the clustering performance of any search engine, (3) its unsupervised learning can automatically identify potentially relevant knowledge without using any corpus, and (4) clustering results are generated on the fly and fitted into search engines.  相似文献   

12.
13.
陈氢  冯进杰 《现代情报》2019,39(10):24-31
[目的/意义]社交媒体网站的飞速发展为我们贡献了海量数据,通过对这些数据的进一步挖掘,可以实现个性化服务推荐。[方法/过程]本文利用地理标签中的丰富的元数据信息,结合基于密度的DBSCAN聚类算法和TF-IDF的统计方法,来提取和识别当地的景点区域,然后结合季节来计算景点的热度,最后运用基于混合过滤的推荐算法,为游客实现个性化旅游服务推荐。[结果/结论]通过Flickr网站爬取到的Geo-tagged数据集验证了本文提出方法的有效性。  相似文献   

14.
童孟军  郑立静 《科技通报》2011,27(2):228-232,257
无线传感器中路由协议的选择制约着网络寿命,选择一个好的路由协议可以有效地延长网络的生存时间.根据层次型拓扑控制的分簇机制所提出的LEACH协议有效地延长了网络的生存时间,但是它在能量均衡上还存在问题.目前学术界也提出了许多的改进方法,本文是基于LEACH协议所存在的不足.在选簇上做了改进.提出新的N-LEACH协议,优...  相似文献   

15.
In this paper, the scalability and quality of the contextual document clustering (CDC) approach is demonstrated for large data-sets using the whole Reuters Corpus Volume 1 (RCV1) collection. CDC is a form of distributional clustering, which automatically discovers contexts of narrow scope within a document corpus. These contexts act as attractors for clustering documents that are semantically related to each other. Once clustered, the documents are organized into a minimum spanning tree so that the topical similarity of adjacent documents within this structure can be assessed. The pre-defined categories from three different document category sets are used to assess the quality of CDC in terms of its ability to group and structure semantically related documents given the contexts. Quality is evaluated based on two factors, the category overlap between adjacent documents within a cluster, and how well a representative document categorizes all the other documents within a cluster. As the RCV1 collection was collated in a time ordered fashion, it was possible to assess the stability of clusters formed from documents within one time interval when presented with new unseen documents at subsequent time intervals. We demonstrate that CDC is a powerful and scaleable technique with the ability to create stable clusters of high quality. Additionally, to our knowledge this is the first time that a collection as large as RCV1 has been analyzed in its entirety using a static clustering approach.  相似文献   

16.
As text documents are explosively increasing in the Internet, the process of hierarchical document clustering has been proven to be useful for grouping similar documents for versatile applications. However, most document clustering methods still suffer from challenges in dealing with the problems of high dimensionality, scalability, accuracy, and meaningful cluster labels. In this paper, we will present an effective Fuzzy Frequent Itemset-Based Hierarchical Clustering (F2IHC) approach, which uses fuzzy association rule mining algorithm to improve the clustering accuracy of Frequent Itemset-Based Hierarchical Clustering (FIHC) method. In our approach, the key terms will be extracted from the document set, and each document is pre-processed into the designated representation for the following mining process. Then, a fuzzy association rule mining algorithm for text is employed to discover a set of highly-related fuzzy frequent itemsets, which contain key terms to be regarded as the labels of the candidate clusters. Finally, these documents will be clustered into a hierarchical cluster tree by referring to these candidate clusters. We have conducted experiments to evaluate the performance based on Classic4, Hitech, Re0, Reuters, and Wap datasets. The experimental results show that our approach not only absolutely retains the merits of FIHC, but also improves the accuracy quality of FIHC.  相似文献   

17.
介绍聚类算法的过程以及聚类有效性指标的分类,分别评述科学计量学常用软件中的几种聚类算法,分析聚类算法的特性并采用基于类内紧密度和类间分离度对聚类结果的有效性进行探讨,总结各聚类算法的效果并对应软件分析的结果进行案例分析。  相似文献   

18.
This study employs our proposed semi-supervised clustering method called Constrained-PLSA to cluster tagged documents with a small amount of labeled documents and uses two data sets for system performance evaluations. The first data set is a document set whose boundaries among the clusters are not clear; while the second one has clear boundaries among clusters. This study employs abstracts of papers and the tags annotated by users to cluster documents. Four combinations of tags and words are used for feature representations. The experimental results indicate that almost all of the methods can benefit from tags. However, unsupervised learning methods fail to function properly in the data set with noisy information, but Constrained-PLSA functions properly. In many real applications, background knowledge is ready, making it appropriate to employ background knowledge in the clustering process to make the learning more fast and effective.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号