首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于IIG和LSI组合特征提取方法的文本聚类研究   总被引:8,自引:0,他引:8  
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,首先利用向量空间模型和改进的信息增益特征选择方法 ,构造文本特征向量 ,利用C 均值方法聚类 ,聚类结果准确率、查全率、F measure分别达到 0 .82、0 . 88、0 .83。在此基础上 ,对最优的特征选择结果运用潜在语义索引方法 ,对奇异值分解的结果进行截断处理 ,发现奇异值K取 4 0时聚类结果的准确率、查全率、F measure达到 0 . 95、0. 5 7、0 . 78,在有效地降维的同时 ,大幅度地提高了聚类的准确率。  相似文献   

2.
常娥 《图书情报工作》2012,56(11):89-92
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。  相似文献   

3.
一种基于自组织神经网络的中文文本聚类新方法   总被引:8,自引:0,他引:8  
徐建锁  王正欧  王莉 《情报学报》2003,22(6):676-680
针对传统K—均值等算法在文本聚类中的缺陷 ,本文提出了一种树形动态自组织映射 (TGSOM)神经网络来实现中文文本聚类 ,克服了传统的K—均值等算法中文本种类需要预先给定的缺点。本文详尽描述了该网络模型的生成算法和算法中扩展因子的作用 ,并阐述了中文文本的数字化方法———TF .IDF .IG方法  相似文献   

4.
利用改进的信息增益特征选择的方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,利用向量空间模型和信息增益特征降维方法,构造文本特征向量,并最终利用C-均值方法聚类,聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。  相似文献   

5.
基于信息可视化技术的文本聚类方法研究   总被引:4,自引:0,他引:4  
杨峰  周宁  吴佳鑫 《情报学报》2005,24(6):679-683
信息可视化是信息管理和信息系统的热点研究问题。随着网络技术的发展,充分有效地利用丰富的文本资源成为人们关注的焦点。文本聚类是处理文本的重要方法之一。本文在分析现有文本聚类方法的基础上,结合可视化技术解决该类问题的一般过程,给出了一个基于非线性映射实现的可视化技术进行文本聚类的方法,并通过案例说明该方法的特点,指出它与目前流行方法的不同以及其优势所在。  相似文献   

6.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。  相似文献   

7.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

8.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

9.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

10.
提出一种基于最大词重的文本特征提取与降维算法。其基本思想是利用词在文档库的重要性,通过搜索算法将最大重要性的词从高维文档库中提取出来构成低维文档库,达到特征提取与降维的目的。在此基础上,提出利用模拟退火算法改进的K-means聚类算法对降维得到的文本进行聚类分析,实验结果表明该方法可以有效地提高聚类精度。  相似文献   

11.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。  相似文献   

12.
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。  相似文献   

13.
随着文本分类算法的实用化和多语种信息的日益丰富,当机构或组织的文档管理部门日益依赖自动文本分类时,如何解决多语种文档的归类问题成为新的研究热点,跨语言文本分类技术就是在这样的背景下提出的.本文以国家图书文献中心(NSTL)的多语种语料为研究对象,以一部科技类的汉英科技词典为资源工具,提出了一种基于跨语言文本分类的跨语言特征提取方法,实验结果验证了在简单翻译资源条件下对科技文献进行跨语言分类的可行性,也为下一阶段建立实用跨语言文类系统奠定了基础.  相似文献   

14.
基于带语义差别的模糊Taxonomy的交易数据库关联规则聚类   总被引:1,自引:0,他引:1  
关联规则聚类是大量关联规则的一种有效组织方式,本文针对基于商品分类信息的规则聚类方法存在的不足进行了改进,同时考虑了不同层次间的项目语义差别,以及具有不同隶属度的项目细致语义差别,将商品分类树改进为模糊Taxonomy的有向无环图结构,该结构可以处理一个项目同时属于多个父结点的情况.我们充分考虑了有向无环图的性质,提出了带细致语义差别的模糊Taxonomy结构构建方法和相应的规则距离计算方法,其中,规则距离计算过程中的项集距离计算方法无需计算最佳匹配,因此,具有较小的时间开销.规则距离计算和聚类可视化试验结果表明了该方法的可扩展性和有效性,在规则的聚类计算上取得了较为满意的结果.  相似文献   

15.
语义主路径分析方法在改进传统主路径分析法中主路径内容单一、主题一致性较差等不足的同时,留下了两个缺陷,即所选主路径在语义空间的位置可能偏离主题聚簇中心、不同主路径的主题区分度并不明显。本文在语义主路径分析方法的基础上,提出一种逐步优化的主路径选择方法,即将主题聚簇密度和路径遍历权重进行叠加形成复合密度,通过调节复合密度中两个要素的比重来优化主题聚簇中心的定位,当聚簇中心的位置变化收敛后,将位于不同主题聚簇中心的路径作为结果输出。将本文方法分别用于电动汽车锂离子电池专利引文网络和材料科学领域高影响力论文引文网络,实验结果显示,本文方法所产生的多条主路径不仅在主题聚簇中的布局更加合理,而且选取不当主路径的可能性也大大降低,从而验证了本文方法的有效性。  相似文献   

16.
提出一种基于潜在语义索引和本体论的文本语义处理方法。首先构建一个基于本体论的虚拟标准文本特征向量,然后采用潜在语义索引方法以虚拟标准文本特征向量为参照对文本集进行语义聚类,最后在虚拟标准文本特征向量的导引下利用本体库中的知识对聚类获得的文本集合的类别和语义进行显性标注。实验表明,该方法能较好地在语义层面对文本进行有效的聚类,而且聚类结果能显性地显示类聚所属的类别。  相似文献   

17.
[目的/意义]社交网络快速发展的时代,越来越需要自动摘要技术来解决产品评论信息过载。针对现有图模型方法在评论摘要抽取中存在信息不充分、准确性差的问题,提出一种融合主题聚类和语义图模型的多文本摘要方法。[方法/过程]首先运用FCM(Fuzzy C-means)聚类算法对评论文本进行主题划分;然后利用Word2vec模型获取分类评论句子的向量化表达,并根据句子间的语义相似度进行图模型构建;最后利用加权图排序算法,自动抽取出重要性高的句子形成文本摘要。[结果/结论]实验结果显示,该方法能有效识别出产品评论的关键内容,与传统方法相比,融合主题聚类和语义图模型的方法在信息覆盖率和信息多样性指标方面得到了更高的分数,提高了摘要抽取的质量和效率。  相似文献   

18.
在电子商务中,协同推荐技术能够帮助用户发现感兴趣的东西.在协同推荐中,通常采用最近邻居的方法来产生推荐.随着商品数量的增多,协同推荐所需要的数据集也越来越稀疏,可用数据比例越来越少.为了解决这个问题,本文在传统的评分数据的基础上,引入用户的基本信息,对用户的基本信息进行离散化处理,将用户的基本信息转化成一个0、1的向量,在用户的信息的基础上计算最近邻居,根据最近邻居对用户缺失数据进行补充,在补充后的评分数据上进行聚类计算,并根据聚类结果对用户评分进行预测.实验表明引入用户的基本信息,并采用对基本信息离散化的处理方式进行缺失数据补充,在此基础上进行数据的聚类,能够提高预测评分的准确性.  相似文献   

19.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究   总被引:1,自引:0,他引:1  
张玉峰  何超 《图书情报工作》2010,54(10):109-113
为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法-基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。  相似文献   

20.
在对国内政务信息资源组织相关文献进行分析后,针对现行研究的不足之处提出基于聚类技术进行政务信息资源整合的方法,具体步骤可以划分为:文本预处理、特征项选择、特征项权值计算、聚类实现。基于以上步骤,以我国省级政府网站为研究对象,选取包括香港、澳门、台湾在内的全国能够正常浏览的29个省级政府网站,对这些网站的主题词进行聚类分析,研究应用聚类技术进行政务信息资源整合的方法、步骤、工具等,为构建整合式、一站式政务信息资源组织体系提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号