期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。相似文献

6.

基于向量空间模型的层次聚类算法在文本挖掘中的应用

张浩《温州职业技术学院学报》2013,(1):84-86

在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。相似文献

7.

基于文本信息的聚类方法研究

安靖《教育技术导刊》2013,12(8):40-42

随着信息技术和Web技术的发展,如何从海量的Web文本信息中找到自己所需信息已成为一个重要的研究领域。在众多信息获取方法中,聚类技术是一种被广泛应用的方法。总结了文本聚类算法的研究现状,比较了算法的主要差异和整体思想,并分析了各种方法的优劣,同时指出了文本聚类研究今后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提高聚类性能。相似文献

8.

数据挖掘之聚类算法综述

方媛车启凤《河西学院学报》2012,(5):72-76

近年来,数据挖掘技术的研究备受国内外关注,其主要原因是信息技术发展产生了大量分散的数据,迫切需要将这些数据转换成有用的信息和知识.此前的研究,主要集中于分类算法及应用方面的研究,但某些特殊领域,如生物信息学研究等,需要通过聚类方法解决一些实际问题.本文从横向深入分析了数据挖掘技术中聚类算法的发展,对层次法、划分法、模糊法,以及量子聚类、核聚类,基于密度和网格等10种聚类算法的原理、过程和特点等都进行了比较详细的分析论述. 相似文献

9.

使用本体语义提高文本聚类

罗娜左万利袁福宇张靖波张慧杰《东南大学学报》2006,22(3):370-374

为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高. 相似文献

10.

基于K-Mean文本聚类的研究

张跃李葆青胡玲芳孟丽《中国教育技术装备》2014,(18):50-52

文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。相似文献

11.

EM算法在文本挖掘中的应用

严华云肖良军《湖州职业技术学院学报》2008,6(3):12-14

在网络环境中文本挖掘的过程主要包括特征提取、特征选择、挖掘方法选择、结果评价和知识模块等几个部分;最新的发展方向是基于EM算法对文本进行挖掘,基于该算法的的比较挖掘模型为：首先对已知数据集任意分为几个类,然后根据各个类集和背景集对文档集的各个词进行似然,再通过求和可以得到整个数据集的似然,该过程反复进行,直到收敛,从而可以根据各类和背景集结果中的较大的概率值得出文本的共同主题和各个类的主题。相似文献

12.

一种优化初始聚类中心的自适应聚类算法

曹端喜唐加山陈香《教育技术导刊》2020,19(7):28-31

K 均值算法（K-Means）是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和（SSE）的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。相似文献

13.

国外语篇理解的推理研究述略

秦万祥《宁波教育学院学报》2010,12(1):46-49

推理是语篇中没有明确提到却被激活的信息,或从语篇已知的语义信息中产生新语义信息的过程。对推理的研究一直是语篇阅读理解研究关键。通过从国外语篇推理研究的三个阶段、语篇理解中推理的分类以及语篇理解的推理理论与模型三个方面对国外语篇理解中的推理研究进行总结、回顾和探讨,希望有助于对语篇阅读理解的研究。相似文献

14.

一种增量式的半监督文本分类算法

曾安平《宜宾学院学报》2011,(6):71-74

传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题. 相似文献

15.

基于混沌振荡粒子群优化的FCM文本聚类方法

符保龙《河池学院学报》2015,(2):74-78

针对模糊C均值聚类算法易于陷入局部极值的问题,设计了一种基于混沌振荡粒子群优化的模糊C均值聚类方法。该方法在标准PSO算法中设计了一个振荡环节并引入混沌理论以增加算法的多样性和收敛性,接着把优化后的PSO算法和模糊C均值聚类算法相结合。文本聚类的仿真实验表明,相对于PSO-FCM算法和FCM算法,CCPSO-FCM算法具有良好的全局搜索能力和收敛速度,聚类效果良好。相似文献

16.

一种用于文本分类的特征项权值计算方法的研究

龚静胡平霞李春媚《惠州大学学报》2013,(6):78-81

文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法（FreSem）,采用支持向量机（SVM）分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。相似文献

17.

基于聚类中心初始化的文本分类高效算法

刘金岭王朝谢少峰《教育技术导刊》2010,9(4):47-49

将前期工作进行了改进并将训练集各簇中语义相似度大的文档进行合并,减少了训练集容量,实验表明该算法大大提高了KNN算法的效率。相似文献

18.

文本分类技术研究

台德艺谢飞胡学钢《合肥联合大学学报》2007,17(3):61-64

通过介绍文本分类的过程及其关键技术，讨论了文本表示、分类算法、分类器性能评价原理和方法；最后，指出了当前文本分类过程中存在的问题，并对今后的发展进行了展望．相似文献