共查询到18条相似文献,搜索用时 171 毫秒
1.
文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。 相似文献
2.
基于改进特征提取及聚类的网络评论挖掘研究 总被引:1,自引:0,他引:1
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。 相似文献
3.
较为系统的综述了当前空间聚类算法的相关研究。依据这些算法的特点,将它们归纳为两类:划分聚类算法、层次聚类算法。针对划分聚类算法,重点分析了PAM、CLARA和CLARANS算法。针对层次聚类算法,重点分析了BIRCH、CURE算法。比较了这些算法的复杂度,并介绍了相关应用。 相似文献
4.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息
的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型-
向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜
在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元
共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权
CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/
结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元
CLSVSM。 相似文献
5.
6.
文本聚类算法的质量评价 总被引:4,自引:0,他引:4
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。 相似文献
7.
文章提出了一种基于人工免疫增量的聚类算法。该算法在人工免疫可更新聚类算法的基础上,结合蚁群增量聚类算法的思想,将原聚类得到的记忆抗体矩阵作为初始矩阵,调用人工免疫聚类算法处理增量数据,然后采用类解体机制处理类内误差超过规定阈值的聚类。 相似文献
8.
9.
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法。该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取。UCI机器学习数据库数据集的实验证明,本文所提出的改进的聚类算法获得了良好的聚类效果,同时获得较高的聚类准确率。 相似文献
10.
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。 相似文献
11.
本文以CNKI为数据源,基于文献计量的角度,对2000-2013年国内馆际互借领域发表的论文进行分析,利用社会网络分析方法生成国内馆际互借的研究成果年限分布表、关键词共现矩阵和关键词共现图谱,剖析了国内馆际互借领域的研究前沿与研究热点。 相似文献
12.
本文以CNKI为数据源,从文献计量的角度,对2000—2014年国内系统动力学领域发表的文献进行统计分析。利用社会网络分析方法生成研究成果年限分布图、关键词共现矩阵、关键词共现图谱和作者合作度图谱,剖析了国内系统动力学领域的研究前沿与研究热点。 相似文献
13.
用R语言分析关键词集共现网络研究 总被引:1,自引:0,他引:1
[目的/意义]提出关键词集的概念,探索R语言编程实现关键词集共现网络的创建和可视化,为进一步研究基于关键词集的数据挖掘和知识发现提供更为通用的途径和方法。[方法/过程]运用R语言编程技术及igraph等贡献包,自编了关键词集共现网络的创建和可视化函数,分析了图情学科领域的18种CSSCI源刊的载文数据。[结果/结论]计算了关键词集共现网络的中心性等特征参数,绘制了关键词集共现网络图。研究表明,关键词集共现网络揭示了关键词集的分布、聚类和关系特征,能更为直观的揭示分析对象的主题内容及其关联关系,其特征参数的构建及其表征等理论问题值得系统而深入的研究。 相似文献
14.
15.
通过研究聚类算法在图像处理上的应用,提出了一种基于高斯混合模型聚类的图像检索方法。该检索方法首先提取每幅图像的特征,并以特征值为数据集建立高斯混合模型,得到所有图像的高斯混合模型。再以所有图像的混合模型参数集作为数据集,用基于高斯混合模型的聚类算法进行聚类。最后输出检索例图所在的类,即得到检索结果。 相似文献
16.
17.
We consider a challenging clustering task: the clustering of multi-word terms without document co-occurrence information in order to form coherent groups of topics. For this task, we developed a methodology taking as input multi-word terms and lexico-syntactic relations between them. Our clustering algorithm, named CPCL is implemented in the TermWatch system. We compared CPCL to other existing clustering algorithms, namely hierarchical and partitioning (k-means, k-medoids). This out-of-context clustering task led us to adapt multi-word term representation for statistical methods and also to refine an existing cluster evaluation metric, the editing distance in order to evaluate the methods. Evaluation was carried out on a list of multi-word terms from the genomic field which comes with a hand built taxonomy. Results showed that while k-means and k-medoids obtained good scores on the editing distance, they were very sensitive to term length. CPCL on the other hand obtained a better cluster homogeneity score and was less sensitive to term length. Also, CPCL showed good adaptability for handling very large and sparse matrices. 相似文献
18.
国际图书情报领域作者、机构和国家合著网络剖析 总被引:1,自引:0,他引:1
借助SPSS软件从2015年JCR收录的图书情报学领域的86种核心期刊中,随机选取20种期刊作为数据来源,利用书目共现分析系统——BICOMB软件生成共现矩阵,运用UCINET和Pajek软件实现作者、机构和国家3个合著网络的可视化,分析各合著网络的聚类系数、平均距离、高频合作群体,检验小世界特性,揭示网络整体结构、核心学术群体和高频合著集团之间的关系。结果表明国际图书情报领域发文量、合著率及合著规模基本逐年上涨,合作科研已成为不可逆转的大趋势,3个合著网络均具聚类系数大,平均距离短的特点,符合复杂网络的小世界理论,说明国际图书情报领域整体合著网络具有较高的连通性、内部交流频繁、信息传递畅通。高频合著作者和高频合作机构有着确定的研究方向,且倾向于将其连续性的科研成果发表于同一期刊。 相似文献