共查询到17条相似文献,搜索用时 46 毫秒
1.
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。 相似文献
2.
3.
4.
一种改进的SVM决策树文本分类算法 总被引:1,自引:0,他引:1
将SVM和二叉决策树结合起来构成SVM决策树的方法能够较好地解决多类文本分类问题,在此基础上引入了一种基于支持向量数据描述(SVDD)的类间可分性度量方法,对SVM决策树分类器进行改进,实验表明,该方法有效地提高了SVM决策树多类分类器的分类精度和速度. 相似文献
5.
基于粗集的支持向量机文本分类方法研究 总被引:1,自引:0,他引:1
本文提出了一种基于粗糙集的支持向量机文本分类方法。该方法利用粗糙集的约简理论降低了支持向量的维数,同时保证了分类性能。实验表明该方法能获得较好的分类效果。 相似文献
6.
7.
8.
文本分类是中文信息处理的热点研究内容,而语义是文本类别归属的依据。提出一种基于语义引导的特征选择方法,在特征选择的同时,对典型类别区分词进行加权,提高该类词在分类中的作用;采用支持向量机技术进行试验,实验表明建立语义知识库的特征选择改善了文本的分类性能。 相似文献
9.
为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型.针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类.实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间. 相似文献
10.
为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。 相似文献
11.
基于改进KNN的文本分类方法 总被引:9,自引:0,他引:9
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。 相似文献
12.
文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。 相似文献
13.
自动文本分类的可视化方法探讨 总被引:1,自引:0,他引:1
自动文本分类方法是文本分类中非常重要的一种分类方法,本文着重从模型与方法的角度进行探讨。首先给出了一个自动文本分类的形式化定义,然后提出了自动文本分类的流程模型。接着,对流程中的四个部分进行具体讨论。自动文本分类的应用非常广泛,为了叙述方便,以商务数据为例进行讨论,并且选择实例作为典型案例对自动文本分类后的可视化进行分析和具体研究。 相似文献
14.
跨语言文本分类技术研究进展 总被引:1,自引:1,他引:0
本文以综述的形式对跨语言文本分类技术目前的发展态势进行了介绍,从应用背景出发,了解跨语言文本分类技术的社会需求;从关键技术出发,了解该项技术的核心问题及解决方案;从已有研究成果得到的结论揭示了该项技术的发展状况,作为一种重要的多语信息组织手段,跨语言文本分类技术发展前景广阔。Abstract: The present development situation of Cross-Language Text Categorization (CLTC) technologies is summarized.The paper describes the social demand for CLTC technologies from the perspective of the application background,describes the core issues of and solutions to CLTC technologies from the perspective of key technologies,and discloses the development status of CLTC technologies from the conclusions drawn from the obtained research results.As an important means for multilingual information organization,CLTC technologies have a broad development prospect. 相似文献
15.
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。 相似文献
16.
一种基于k最近邻的快速文本分类方法 总被引:5,自引:0,他引:5
k最近邻方法是一种简单而有效的文本分类方法,但是传统的k最近邻分类方法在搜索k个最近邻时需要高强度的相似性计算,尤其是在训练集数据量很大情况下,全局的最优搜索几乎是不可能的.因此,加速k个最近邻的搜索是k最近邻方法实用的关键.本文提出了一种基于k最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类.实验结果表明这一方法较传统方法性能有显著提升. 相似文献
17.
基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。 相似文献