首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
特征降维是文本分类的关键步骤之一.传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差.针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷.在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能.  相似文献   

2.
传统图像特征提取具有较高维度缺陷,造成算法分类效率低、复杂度高、分类速度慢、计算开销大等问题.为此提出AAM算法,定位关键点提取人脸表情几何特征.将朴素贝叶斯分类器结合特征属性重要度调节高斯核函数,使用K近邻算法实现分类决策,提出一种WNBC-KNN分类方法,从降低数据维度和分类算法两方面优化人脸表情分类.在CK+数据...  相似文献   

3.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性--网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集采源于同一个样本集而忽视了测试集中可能包含无类别样本的可能.基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度.实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法.  相似文献   

4.
为了提升不平衡数据中少数类的分类精度,利用SMOTE采样方法对数据集进行平衡化预处理;为了减轻样本重新合成过程中产生的类重叠和噪声对分类精度的影响,选择模糊粗糙最近邻算法(FRNN)作为分类器。在14个不平衡数据集上进行的仿真实验表明,该方法具有较好的分类表现,F值和G值最高分别可达0.965、0.932,是一种适用于不平衡率偏高数据集的分类方法。  相似文献   

5.
针对标准支持向量机训练时间过长与参数选择无指导性问题,给出一种通过粒子群优化双支持向量机模型参数的方法。与标准支持向量机不同,该方法的时间复杂度更小,特别适合不均衡的数据样本分类问题,对求解大规模的数据分类问题有很大优势。将该算法与标准的支持向量机分类器在不同的文本数据集上进行仿真实验对比,以验证算法的有效性。结果表明基于粒子群优化的双子支持向量机分类器的分类结果高于标准支持向量机分类结果。  相似文献   

6.
朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型,但是它的独立性假设属性使其无法表示现实世界属性之间的依赖关系,从而影响它的分类性能。这里提出一种改进的基于贝叶斯定理的文本分类模型——“树桩网络(Stump Network)”,并将该方法与朴素贝叶斯文本分类器和TAN(Tree Augmented Naive Bayes)文本分类器进行实验比较,结果表明,在大多数数据集上该文本分类方法具有较高的分类正确率。  相似文献   

7.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

8.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

9.
特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一。但其过于简单的词频和反文档频率表迭式会忽略在一个类中频繁出现的特征,导致了特征预测能力相互削弱。文中提出了一种改进的特征选择算法(I—TFIDF),能更好的体现特征词条的权重,从而有效提高分类的正确率。实验结果表明I—TFIDF比传统的TFIDF算法具有更好的性能。  相似文献   

10.
SVM算法只使用已归类的数据训练分类器,而EM算法用少量已归类数据,结合大量的未归类数据来训练分类器,在减少已归类数据的同时保证了分类器的精度。本文基于EM算法的思想,根据SVM文本分类模型,提出一种新的迭代SVM文本分类算法。实验结果表明,迭代SVM算法分类精度高于传统的SVM文本分类算法,具有较好的性能。  相似文献   

11.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备.  相似文献   

12.
传统的K最近邻算法(KNN)是机器学习领域中思想简单、易于学习、对低维数据处理效率较高的分类方法之一,但是在高维数据的分类中效率不高、性能会降低。针对传统KNN算法在处理多维数据集上的不足,提出了一种新的KNN改进算法:将线性回归方法引入该算法中,利用属性间的决定系数选择合适的属性集合,降低高维数据集的维数,并采用卡方距离作为KNN算法的距离度量函数,克服欧式距离不能体现特征向量之间相对关系的不足。实验结果分析表明,在标准数据集的测试中,基于线性回归方法的改进KNN算法达到了较高的分类准确度,相对于传统KNN算法在属性识别度上有了一定的提高。  相似文献   

13.
近年来基于Adaboost的人脸检测算法因其快速和可接受的检测率得到了成功的应用,但Viola-Jones学习算法需要对级联分类器的每一个特征反复训练弱分类器显得非常缓慢。本文给出了一种新的级联检测器节点分类设计方法,首先将每个节点所有弱分类器的训练移到循环外,然后选择使强分类器有最小错误率的特征集代替选择单个最小加权误差的特征生成强分类器。实践表明该训练速度快于Viola-Jones的方法。  相似文献   

14.
提出一种基于中心核对齐的模糊支持向量机(Centered kernel alignment-based fuzzy support vector machine, CKA-FSVM)算法并应用于中文农业文本分类.首先通过爬虫技术获取2 246个中文农业文本并进行数据预处理,然后进行文本向量化和特征处理,最后构建分类器模型,实现中文农业文本的自动分类.实验结果显示CKA-FSVM算法在中文农业文本分类上的平均准确率为91.69%,平均F1值为94.96%,比5个对比算法中的最好结果分别提升了0.04和0.24个百分点,表明该模型在中文农业文本分类领域具有较好的性能.  相似文献   

15.
不平衡数据在各个应用领域普遍存在。在处理不平衡数据时,破坏原始数据的分布特点和丢弃多数类样本的潜在信息都会降低分类精度,为此,提出一种不平衡数据集成分类方法。从多数类样本中依据计算得到的综合权重进行随机采样,并与少数类样本组成新的训练样本子集|为了保证基分类器的差异性,将投影得到的不同样本子集作为各个基分类器的训练样本,通过多分类器集成学习获得最终分类结果|在UCI数据集下进行实验。结果表明,该方法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类精度。  相似文献   

16.
《嘉应学院学报》2016,(5):16-20
针对传统Android恶意应用检测方法在处理大规模样本时存在的训练时间长、存储空间消耗大的问题,提出一种基于增量学习SVM的Android恶意应用检测方法.该方法提取Android应用的权限申请和API函数调用特征,利用增量学习SVM理论将训练样本集随机划分为初始样本集和若干个增量样本集,利用循环迭代方法训练SVM分类器,每次新的训练仅保留上一轮训练得到的支持向量集并合并到新增样本集中,舍弃大量对分类结果不产生影响的样本以提高分类器学习效率,同时产生新的支持向量集,并最终得到一个高精度的SVM分类器.通过将增量学习SVM算法与基本SVM算法进行对比实验,结果表明,该算法可以有效降低分类器学习时间,减少样本存储的空间占用,同时随着样本规模的积累逐步提高分类精度.  相似文献   

17.
提出了一种基于分支定界算法的白细胞图像特征选择方法,该方法可有效降低特征空间的维数,加速分类器的速度.为验证方法的有效性,分别用106个原始特征和从106个特征中选择35个最优特征进行分类实验.结果表明,两种情况的分类效果无明显改变,有效缩短了分类器的分类时间.  相似文献   

18.
提出了一种基于改进的模糊C均值算法的分类器设计方法。该方法解决了分类过程中样本点分散和样本错分的问题。其基本思想是:在样本决策函数中引入隶属度函数,为了避免传统的隶属度函数归一化问题,引入放松的归一化条件,利用决策函数根据条件求偏导,得到经过训练的分类器。采用UCI标准进行数据集实验,实验结果表明,该算法具有一定的优越性。  相似文献   

19.
在模式分类领域,分类器特征输入的选择对分类效果是至关重要的.我们提出了一种新的基于相对熵的特征选择AdaBoost方法.在该算法中,引入相对熵度量两类间的距离.在每一轮中,选择最优特征作为二维分量分类器的输入.随着权值的改变,在每一轮中特征的选择也不同.最后,由一组弱分类器结合而成的强分类器.实验表明,与遍历搜索的AdaBoost算法相比,该算法的检测正确率提高了5%,而时间缩短了20%以上.  相似文献   

20.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡.该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率.UCI数据集上的实验结果表明,改...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号