首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。  相似文献   

2.
针对不平衡数据集少类样本分类精度低的现象,本文提出了一种新的不平衡数据扩充采样算法。改进算法通过距离度量,在少类样本中心与其近邻间进行随机线性插值,使数据平衡。改进算法与SMOTE算法、C_SMOTE算法分别对5个不平衡数据集进行扩充分类对比实验,基于AUC、OOB、F值与G值评价指标及成对样本T检验,证明改进算法能有效缓解类不平衡,并具有更优异的不平衡数据处理性能。  相似文献   

3.
不平衡数据集分类方法研究   总被引:1,自引:0,他引:1  
孙全尚 《科教文汇》2013,(27):92-93
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。  相似文献   

4.
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则.  相似文献   

5.
本文以不平衡支持向量机算法为基础,有效应用以往样本集中类内结构信息数据,重点对不平衡数据集进行研究和分析,并提出新的不平衡支持向量机算法,新的算法以类内离散度为基础,仿真实验数据结果证明,经过改进的算法非常有效,可进一步提升G-means值和SE值。  相似文献   

6.
基于模糊向量空间的文本分类方法   总被引:1,自引:0,他引:1  
郑凤萍  刘春雨 《情报科学》2007,25(4):588-591
本文针对文本自动分类问题,提出了一种基于模糊向量空间模型和径向基函数网络的分类方法。网络由输入层、隐层和输出层组成。输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

7.
文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。  相似文献   

8.
一种改进的SVM决策树文本分类算法   总被引:1,自引:0,他引:1  
将SVM和二叉决策树结合起来构成SVM决策树的方法能够较好地解决多类文本分类问题,在此基础上引入了一种基于支持向量数据描述(SVDD)的类间可分性度量方法,对SVM决策树分类器进行改进,实验表明,该方法有效地提高了SVM决策树多类分类器的分类精度和速度.  相似文献   

9.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。  相似文献   

10.
在MATLAB环境下,取ORL人脸数据库的部分人脸样本集,基于PCA方法提取人脸特征,形成特征脸空间,然后将每个人脸样本投影到该空间得到一投影系数向量,该投影系数向量在一个低维空间表述了一个人脸样本,这样就得到了训练样本集。同时将另一部分ORL人脸数据库的人脸作同样处理得到测试样本集。然后基于最近邻算法进行分类,得到识别率,接下来使用BP神经网络算法进行人脸识别,最后通过基于神经网络算法和最近邻算法进行综合决策,对待识别的人脸进行分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号