共查询到20条相似文献,搜索用时 15 毫秒
1.
基于IIG和LSI组合特征提取方法的文本聚类研究 总被引:8,自引:0,他引:8
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,首先利用向量空间模型和改进的信息增益特征选择方法 ,构造文本特征向量 ,利用C 均值方法聚类 ,聚类结果准确率、查全率、F measure分别达到 0 .82、0 . 88、0 .83。在此基础上 ,对最优的特征选择结果运用潜在语义索引方法 ,对奇异值分解的结果进行截断处理 ,发现奇异值K取 4 0时聚类结果的准确率、查全率、F measure达到 0 . 95、0. 5 7、0 . 78,在有效地降维的同时 ,大幅度地提高了聚类的准确率。 相似文献
2.
3.
4.
利用改进的信息增益特征选择的方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,利用向量空间模型和信息增益特征降维方法,构造文本特征向量,并最终利用C-均值方法聚类,聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。 相似文献
5.
6.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。 相似文献
7.
8.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法. 相似文献
9.
基于样本加权的文本聚类算法研究 总被引:3,自引:0,他引:3
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果. 相似文献
10.
最大词重降维算法与模拟退火算法相结合的文本聚类方法研究 总被引:1,自引:0,他引:1
提出一种基于最大词重的文本特征提取与降维算法。其基本思想是利用词在文档库的重要性,通过搜索算法将最大重要性的词从高维文档库中提取出来构成低维文档库,达到特征提取与降维的目的。在此基础上,提出利用模拟退火算法改进的K-means聚类算法对降维得到的文本进行聚类分析,实验结果表明该方法可以有效地提高聚类精度。 相似文献
11.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。 相似文献
12.
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。 相似文献
13.
14.
基于带语义差别的模糊Taxonomy的交易数据库关联规则聚类 总被引:1,自引:0,他引:1
关联规则聚类是大量关联规则的一种有效组织方式,本文针对基于商品分类信息的规则聚类方法存在的不足进行了改进,同时考虑了不同层次间的项目语义差别,以及具有不同隶属度的项目细致语义差别,将商品分类树改进为模糊Taxonomy的有向无环图结构,该结构可以处理一个项目同时属于多个父结点的情况.我们充分考虑了有向无环图的性质,提出了带细致语义差别的模糊Taxonomy结构构建方法和相应的规则距离计算方法,其中,规则距离计算过程中的项集距离计算方法无需计算最佳匹配,因此,具有较小的时间开销.规则距离计算和聚类可视化试验结果表明了该方法的可扩展性和有效性,在规则的聚类计算上取得了较为满意的结果. 相似文献
15.
语义主路径分析方法在改进传统主路径分析法中主路径内容单一、主题一致性较差等不足的同时,留下了两个缺陷,即所选主路径在语义空间的位置可能偏离主题聚簇中心、不同主路径的主题区分度并不明显。本文在语义主路径分析方法的基础上,提出一种逐步优化的主路径选择方法,即将主题聚簇密度和路径遍历权重进行叠加形成复合密度,通过调节复合密度中两个要素的比重来优化主题聚簇中心的定位,当聚簇中心的位置变化收敛后,将位于不同主题聚簇中心的路径作为结果输出。将本文方法分别用于电动汽车锂离子电池专利引文网络和材料科学领域高影响力论文引文网络,实验结果显示,本文方法所产生的多条主路径不仅在主题聚簇中的布局更加合理,而且选取不当主路径的可能性也大大降低,从而验证了本文方法的有效性。 相似文献
16.
提出一种基于潜在语义索引和本体论的文本语义处理方法。首先构建一个基于本体论的虚拟标准文本特征向量,然后采用潜在语义索引方法以虚拟标准文本特征向量为参照对文本集进行语义聚类,最后在虚拟标准文本特征向量的导引下利用本体库中的知识对聚类获得的文本集合的类别和语义进行显性标注。实验表明,该方法能较好地在语义层面对文本进行有效的聚类,而且聚类结果能显性地显示类聚所属的类别。 相似文献
17.
[目的/意义]社交网络快速发展的时代,越来越需要自动摘要技术来解决产品评论信息过载。针对现有图模型方法在评论摘要抽取中存在信息不充分、准确性差的问题,提出一种融合主题聚类和语义图模型的多文本摘要方法。[方法/过程]首先运用FCM(Fuzzy C-means)聚类算法对评论文本进行主题划分;然后利用Word2vec模型获取分类评论句子的向量化表达,并根据句子间的语义相似度进行图模型构建;最后利用加权图排序算法,自动抽取出重要性高的句子形成文本摘要。[结果/结论]实验结果显示,该方法能有效识别出产品评论的关键内容,与传统方法相比,融合主题聚类和语义图模型的方法在信息覆盖率和信息多样性指标方面得到了更高的分数,提高了摘要抽取的质量和效率。 相似文献
18.
在电子商务中,协同推荐技术能够帮助用户发现感兴趣的东西.在协同推荐中,通常采用最近邻居的方法来产生推荐.随着商品数量的增多,协同推荐所需要的数据集也越来越稀疏,可用数据比例越来越少.为了解决这个问题,本文在传统的评分数据的基础上,引入用户的基本信息,对用户的基本信息进行离散化处理,将用户的基本信息转化成一个0、1的向量,在用户的信息的基础上计算最近邻居,根据最近邻居对用户缺失数据进行补充,在补充后的评分数据上进行聚类计算,并根据聚类结果对用户评分进行预测.实验表明引入用户的基本信息,并采用对基本信息离散化的处理方式进行缺失数据补充,在此基础上进行数据的聚类,能够提高预测评分的准确性. 相似文献
19.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究 总被引:1,自引:0,他引:1
20.
在对国内政务信息资源组织相关文献进行分析后,针对现行研究的不足之处提出基于聚类技术进行政务信息资源整合的方法,具体步骤可以划分为:文本预处理、特征项选择、特征项权值计算、聚类实现。基于以上步骤,以我国省级政府网站为研究对象,选取包括香港、澳门、台湾在内的全国能够正常浏览的29个省级政府网站,对这些网站的主题词进行聚类分析,研究应用聚类技术进行政务信息资源整合的方法、步骤、工具等,为构建整合式、一站式政务信息资源组织体系提供参考。 相似文献