首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
不平衡数据在各个应用领域普遍存在。在处理不平衡数据时,破坏原始数据的分布特点和丢弃多数类样本的潜在信息都会降低分类精度,为此,提出一种不平衡数据集成分类方法。从多数类样本中依据计算得到的综合权重进行随机采样,并与少数类样本组成新的训练样本子集|为了保证基分类器的差异性,将投影得到的不同样本子集作为各个基分类器的训练样本,通过多分类器集成学习获得最终分类结果|在UCI数据集下进行实验。结果表明,该方法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类精度。  相似文献   

2.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡.该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率.UCI数据集上的实验结果表明,改...  相似文献   

3.
为了提升不平衡数据中少数类的分类精度,利用SMOTE采样方法对数据集进行平衡化预处理;为了减轻样本重新合成过程中产生的类重叠和噪声对分类精度的影响,选择模糊粗糙最近邻算法(FRNN)作为分类器。在14个不平衡数据集上进行的仿真实验表明,该方法具有较好的分类表现,F值和G值最高分别可达0.965、0.932,是一种适用于不平衡率偏高数据集的分类方法。  相似文献   

4.
在不平衡数据集中,由于少类样本和多类样本的不平衡,在分类过程中容易产生难以分类和错误分类的现象。针对不平衡数据集的分类特点,设计出一种组合分类器,适用于不平衡数据集的分类。通过SMOTE算法采样对不平衡数据集进行一个预处理,采用单层决策树作为基本分类器,利用Matlab编程,构建Adaboost算法分类器,对demo、heart和usps数据集进行训练集和测试集分析。结果表明,通过Adaboost算法可以有效提高分类效果,算法中通过改变正类样本的权值,从而重视对少类样本的分类,在一定程度上能够提高整体的分类效果,实现不平衡数据集的分类设计。  相似文献   

5.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

6.
非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。  相似文献   

7.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

8.
为减少不均衡数据对支持向量机分类性能的影响,提出一种基于二次支持向量机的欠取样分类算法,该算法依据样本的分类超平面贡献大小对多数类样本进行欠取样.并对少数类样本进行过取样,重构训练数据集。该算法能够删除样本中的噪声数据。用控制参数控制删除样本的规模,实验表明,该算法能够提高支持向量机在不均衡数据集下的分类性能。  相似文献   

9.
针对信用评价中最为常见的不平衡小样本数据集问题,以及不同误分类造成的损失代价不同问题,在传统SVM模型基础上,提出采用过采样的SMOTE算法解决数据不平衡问题。在核SVM模型的基础上运用交叉验证得出核最优参数,加入非对称误差成本(DEC),提高将高风险误分为低风险的成本,建立更适用于信用评价的模型。经数据验证,该算法有效弥补了传统SVM模型在不平衡数据集分类中的缺陷,避免了小样本数据集样本过少而使得模型泛化能力降低的问题。加入DEC之后的模型与未加入的相比,虽分类准确率略有降低,但将高风险误分为低风险的错误明显降低,更适用于信用评价模型。  相似文献   

10.
通过对公开图形数据集的详细分析,发现数据集有四种典型特征:规模大、标签系统分层、标注不完整和数据不平衡.针对以上数据集的典型特征,在采用更大的骨干网、分布式Softmax损失函数、分类别采样策略、专家模型和重分类器等应对策略后,单模型mAP精度最优能达到62.29.经过集成之后,mAP精度能最终可提升到67.17.试验...  相似文献   

11.
《宜宾学院学报》2019,(12):72-78
由于数据集里类别分布不均,传统随机森林(Random Forest)分类器的性能受到一定程度制约,面对学业数据集中成绩较差人数占少数比例的非平衡性问题,为了在一定程度提高模型预测性能,提出SMOTEENN混合采样方式结合随机森林分类器的组合分类预测模型的方法(SER)对学生学业表现进行分类;同时基于10种非平衡性数据集采样方法,对比分析了包括随机森林在内的5种模型的性能.实验结果表明,使用SER方法对学生学业表现情况预测最优,分类器性能指标F1-Score和Recall的值分别为0.98和0.97,达到了预期目的.  相似文献   

12.
针对个人信用数据存在连续型和离散型交织并存以及类不平衡问题,为提高信用评估分类效果,提出一种结合代价敏感和集成算法的个人信用评估分类模型.通过集成信息价值、互信息、信息增益率和基尼指数特征,选择算法生成最优特征子集.结合代价敏感构建以L1-逻辑回归、弹性网-逻辑回归、贝叶斯、决策树和神经网络为基模型的集成模型,并辅之动...  相似文献   

13.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

14.
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.  相似文献   

15.
数据分类是种数据分析形式,可以用于提取重要数据类的模型或未来的数据趋势,其方法也十分繁多.本文将简单介绍数据分类的核心思想并讨论最主要的两种数据分类方法--判定树和贝叶斯分类.  相似文献   

16.
针对数据挖掘技术较为抽象并且难以理解等问题,设计了数据挖掘课程的教学与实验方案.方案包含了数据分类、聚类、降维以及关联规则等数据挖掘子技术.将传感器、互联网、社交媒体等不同类型的数据作为实验数据集,采用云计算技术提高计算与存储的效果,提高教学与实验的效率.设计了图形交互界面,能够以图形形式与表格输出数据分类、聚类、降维...  相似文献   

17.
为了应对信息社会数据急剧增长,获得用户感兴趣或有益的数据,必须对数据进行处理,数据挖掘技术就是应这种需要而发展的.数据挖掘要取得有用数据,必须对数据进行种分类、聚类和关联三种不同的任务处理.对于文本信息的分类是数据挖掘的一个主要应用,而决策树算法利用自身优势和分类效率,在文本处理中有巨大的应用前景,尤其是J48算法应用与文本信息的分类有广泛的应用价值.  相似文献   

18.
为了应对信息社会数据急剧增长,获得用户感兴趣或有益的数据,必须对数据进行处理,数据挖掘技术就是应这种需要而发展的.数据挖掘要取得有用数据,必须对数据进行种分类、聚类和关联三种不同的任务处理.对于文本信息的分类是数据挖掘的一个主要应用,而决策树算法利用自身优势和分类效率,在文本处理中有巨大的应用前景,尤其是J48算法应用与文本信息的分类有广泛的应用价值.  相似文献   

19.
本文对数据不平衡以及其他因素对支持向量分类机的影响进行了简单而系统的实验研究。结果表明,数据不平衡的实质是边界信息的不平衡,由此可能导致分类边界不恰当的偏移,进而降低分类器的性能。增大学习样本容量可丰富边界信息,进而可削弱数据不平衡对分类器带来的不良影响。然而,当分类学习的概念较复杂时,即使数据是平衡的,分类器也很难获得理想的决策边界。  相似文献   

20.
视网膜OCT图像能够观察到眼底视网膜各层组织及其厚度,为早期眼底疾病筛查提供准确的临床依据,但现有标注样本少导致分类精度较低.针对此问题提出一种基于迁移学习的EfficientNet视网膜OCT图像分类算法.首先,对视网膜OCT图像进行数据增强与预处理操作;其次,将预训练好的EfficientNet-B3模型进行训练,再通过部分过采样和类权重的方法进行微调训练.最终分类准确率可达99.2%,表明该模型具有较高的分类识别准确率,具有一定的临床指导意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号