首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 898 毫秒
1.
从嵌入式NSTL文本推荐系统的检索词推荐需求入手,分析原有方法的不足,引入共词分析方法和分化理论,提出一种新的最佳聚类数确定方法,改进最小类间距离和平均类内距离的计算方法,强化聚类结果的推荐效果,同时使推荐效果可以随着样本数据的变化而动态调整。最后,运用实验验证该方法的有效性。
  相似文献   

2.
聚类有效性指标用于评价聚类质量和确定最佳聚类数,针对包含大小和密度差异性较大数据类的数据集,在分析了传统模糊聚类有效性指标不足的基础上,提出了一个同时考虑紧致性、重叠度和分离性的聚类有效性指标COS.类内紧致性用一定阈值内的隶属度之和与最大类内距离之比表示,一定阈值内各样本同属于两个类的隶属度差异反映了这两个类的重叠度,类间分离性的度量为最小类间距离,使COS指标值最大的聚类数即为最佳聚类数.在四个人工数据集和iris真实数据集上利用模糊C均值算法进行聚类实验的结果表明,COS指标可以有效发现小类和低密度类.  相似文献   

3.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   

4.
XML文档自动聚类研究   总被引:10,自引:4,他引:6  
潘有能 《情报学报》2006,25(2):215-220
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。  相似文献   

5.
对BWP方法进行研究,从嵌入式NSTL个性化推荐的文本聚类需求入手,分析BWP方法的不足,提出一种改进的K-means算法最佳聚类数确定方法。对单一样本类的类内距离计算方法进行优化,扩展BWP方法适用的聚类数范围,使原有局部最优的聚类数优化为全局最优。实验结果可以验证该方法具有良好性能。  相似文献   

6.
文本聚类结果描述研究综述   总被引:1,自引:0,他引:1  
首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。  相似文献   

7.
基于带语义差别的模糊Taxonomy的交易数据库关联规则聚类   总被引:1,自引:0,他引:1  
关联规则聚类是大量关联规则的一种有效组织方式,本文针对基于商品分类信息的规则聚类方法存在的不足进行了改进,同时考虑了不同层次间的项目语义差别,以及具有不同隶属度的项目细致语义差别,将商品分类树改进为模糊Taxonomy的有向无环图结构,该结构可以处理一个项目同时属于多个父结点的情况.我们充分考虑了有向无环图的性质,提出了带细致语义差别的模糊Taxonomy结构构建方法和相应的规则距离计算方法,其中,规则距离计算过程中的项集距离计算方法无需计算最佳匹配,因此,具有较小的时间开销.规则距离计算和聚类可视化试验结果表明了该方法的可扩展性和有效性,在规则的聚类计算上取得了较为满意的结果.  相似文献   

8.
随着互联网上信息数量的不断增长,传统的信息检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从检索结果中快速、准确地定位自己想要的信息,集成了文档聚类功能的搜索引擎应运而生。本文讨论了文档聚类技术在搜索引擎中的应用问题,介绍了一些算法,重点分析了Vivisimo这个比较有代表性的聚类搜索引擎,并预测了搜索引擎聚类技术的发展趋势。  相似文献   

9.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

10.
聚类就是指按照事物间的相似性对事物进行区分和分类的过程,是在没有教师指导下自动进行的无监督的分类。本文通过实现常用的K-mean算法和FCM算法,在对测试数据进行反复聚类后,对聚类算法进行了对比与分析。  相似文献   

11.
基于类的统计语言模型是目前解决计算语言学问题的一个重要方法。本文依据Sven Martin等人提出的词聚类方法,采用二元词聚类方式对给出的语料库进行词聚类,并对聚类的结果进行了多方面分析。  相似文献   

12.
论文首先分析搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,接着分析国内外现有聚类搜索引擎的基本功能,选取其中四个聚类搜索引擎进行测试,根据提出的评价指标分析了聚类搜索引擎存在的5个问题,最后提出了改进聚类搜索引擎功能的3项措施.  相似文献   

13.
聚类搜索引擎探究   总被引:1,自引:0,他引:1  
一批代表性的聚类搜索引擎的出现,使得聚类搜索引擎的优劣逐步为公众所知.采用聚类算法、重视结果的显示方式、关注用户提问信息、提供个性化服务均是聚类搜索引擎最显著的优点,应该引起足够的重视.针对过分依托原生搜索引擎、没有形成专用聚类算法、搜索速度相对较慢、聚类层次有限等现状,作者最后还对聚类搜索引擎的发展提出了一些建议,比如实现人工聚类与自动聚类结合、增加学术趋势分析功能、加强相关度研究等.  相似文献   

14.
聚类搜索引擎发展现状研究   总被引:3,自引:0,他引:3  
分析研究搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,通过对国内外现有聚类搜索引擎功能的分析,提出“以用户为中心”的聚类2.0搜索是未来聚类搜索引擎,乃至搜索引擎的发展趋势。  相似文献   

15.
同被引聚类与引用耦合聚类是两种常用的文献聚类方法,本文从聚类的时效性和实际可操作性、聚类结果的完整性和稳定性、聚类原理与专利法理逻辑和创新协同效应的契合性等方面对两种方法进行对比分析,发现引用耦合聚类方法在揭示专利间的相似性方面更具优势,同被引聚类方法则更适用于发现基础专利和揭示技术演化规律。两者若结合使用,则能在解决实际问题的过程中实现优势互补。
  相似文献   

16.
[目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。  相似文献   

17.
[目的/意义]探索领域知识发展过程中的聚类演化问题有助于揭示知识聚类的特征和规律,对于掌握知识生长演进过程中关联知识的聚集具有重要意义。[方法/过程]以复杂网络的思想为基础,基于标签邻接关系的发生值构建时间序列领域知识网络。即依据网络模体的理论,采用网络聚类系数的分析方法,对领域知识网络进行动态跟踪与分析;结合网络密度、特征路径长度、节点度值、封闭三元组等指标,从随机因素、度相关性、邻近关联3个方面对领域知识发展过程中的聚类演化现象进行分析。[结果/结论]研究结果表明:①领域知识在发展进程中始终保持较高的聚类性;②领域知识的聚类性同时包含随机性与结构性(非随机性)两方面因素; ③领域知识聚类的动态状态在小世界网络和无标度网络之间摇摆演化; ④领域知识的聚类状态在网络全局和局部节点之间表现出一定的差异性。  相似文献   

18.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

19.
在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。  相似文献   

20.
通过对科研基金名称数据特点和文本数据聚类方法的分析,提出并实现了基于编辑距离算法(Levenshtein Distance)的科研基金名称数据分析方法,该算法首先通过设定相似度方式对科研基金名称数据进行聚类形成数据分组,再对分组数据进行二次聚类计算出组的相似度之和,并据此判定数据聚类中心。该方法已经成功应用于中国医学科学院医学信息研究所的医学文献基金数据处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号