首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。  相似文献   

3.
基于Web挖掘的个性化服务研究   总被引:8,自引:0,他引:8  
论述了基于Web挖掘的个性化服务研究,提出了利用Web挖掘方法的个性化服务研究中的用户聚类、Web页面聚类、用户频繁访问路径发现算法及用户访问路径优化算法。利用这些算法得到的个性化信息可以准确把握用户兴趣模式并对Web信息资源的组织方式进行有效更新,从而提高网络信息服务效率,为用户提供“一对一”的具备自适应性的智能个性化服务。  相似文献   

4.
基于LDA模型的文本聚类研究   总被引:1,自引:0,他引:1  
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。  相似文献   

5.
英汉双语文本聚类是一项非常有价值的研究。使用单语言文本聚类算法,在英汉双语新闻语料基础上,对基于中文单语、英文单语和英汉双语混合的方法进行了文本聚类比较研究,实验结果表明,基于英汉双语混合的文本聚类方法可以取得较好的聚类结果。  相似文献   

6.
文本聚类是进行文本信息检索的重要方法,被广泛应用于网络信息和档案资料的筛选和检索。分析了目前较成熟的文本聚类技术,并对文本聚类结果的评价方法进行了探讨。  相似文献   

7.
文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。  相似文献   

8.
文本聚类算法的质量评价   总被引:4,自引:0,他引:4  
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。  相似文献   

9.
利用话题识别技术将Blog文本信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。文章重点研究话题识别模型中的词频,权重计算以及相似度计算,对聚类算法有简单的实现并通过该实验对聚类算法有了更深层次的认识。  相似文献   

10.
随着通信事业的快速发展,短信文本信息量非常巨大,乃至亿级,同时大类别短信文本中隐含着热点事件。现有聚类算法对海量短信文本进行聚类分析显得力不从心。利用短信文本在给定时间段中的内聚性,对待聚类的短信文本进行排序,并在聚类过程中清除孤立信息和小类别短信文本。实验表明,对于海量短信文本的大类别聚类效率是非常高的。  相似文献   

11.
文本自动聚类技术研究   总被引:1,自引:0,他引:1  
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述.  相似文献   

12.
《科技风》2017,(26)
随着基因芯片和DNA微阵列等高通量、短读取、低成本检测技术的发展,从而产生了丰富的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找到全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出了双聚类概念,这种算法从思想上有别于传统的聚类算法,它主要强调在聚类时基因和条件的同时性。目前比较成熟的双聚类算法大约有十七种左右。基于此本文简要调研了现有的三种具有代表性的双聚类算法,系统的分析了每种算法的设计步骤,算法原理,操作环境以及应用。这对于不同的基因数据如何选择更加合适的双聚类算法和软件提供了一定的指导。  相似文献   

13.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

14.
李法运  农罗锋 《情报科学》2013,(2):34-37,44
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。  相似文献   

15.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

16.
在对最佳任务调度下的Web数据进行优化聚类的过程中,容易出现原始数据损失的情况,导致传统数据优化聚类算法,由于忽略初始数据,无法有效实现Web数据优化聚类。提出一种基于粒子群优化的最佳任务调度下Web数据优化聚类算法,依据任务价值密度以及执行紧迫性,塑造动态优先级,通过适应度函数对分类计划进行评价,给出类间距与类内距计算公式,对相关参数和各粒子的位置以及速度向量进行初始化操作;求出粒子的适应度;求出粒子个体最优与群最优;依据粒子群优化算法的位置以及速度对当前位置和速度进行更新;通过K-means算法对EHCF进行聚类,直至全部Web数据聚类完成。仿真实验结果表明,所提方法在Web数据优化聚类上具有很高的优越性。  相似文献   

17.
SOM聚类算法在文本分类上的应用   总被引:2,自引:0,他引:2  
丁露  崔平 《现代情报》2007,27(9):162-164
随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。  相似文献   

18.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。  相似文献   

19.
限制性聚类是一种试图将用户监督信息加入到已有聚类算法中的一种分类技术,目前已经被广泛应用于K-means算法和层次聚类算法中.在本文中,提出一种将限制条件加入到谱聚类算法的半监督聚类方法,利用正约束和负约束限制来构造约束矩阵,通过它们来引导聚类过程,并结合最优化技术,达到聚类的目的.数据实验验证了这种方法具有很好的精确度.  相似文献   

20.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号