首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
《嘉应学院学报》2016,(5):16-20
针对传统Android恶意应用检测方法在处理大规模样本时存在的训练时间长、存储空间消耗大的问题,提出一种基于增量学习SVM的Android恶意应用检测方法.该方法提取Android应用的权限申请和API函数调用特征,利用增量学习SVM理论将训练样本集随机划分为初始样本集和若干个增量样本集,利用循环迭代方法训练SVM分类器,每次新的训练仅保留上一轮训练得到的支持向量集并合并到新增样本集中,舍弃大量对分类结果不产生影响的样本以提高分类器学习效率,同时产生新的支持向量集,并最终得到一个高精度的SVM分类器.通过将增量学习SVM算法与基本SVM算法进行对比实验,结果表明,该算法可以有效降低分类器学习时间,减少样本存储的空间占用,同时随着样本规模的积累逐步提高分类精度.  相似文献   

2.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

3.
针对垃圾邮件大量存在的问题,提出基于MapReduce并行SVM的垃圾邮件分类算法,用支持向量机作为分类器,基于MapReduce将各子分类器进行合并,并通过重训练得到模型,利用该模型对测试集进行分类,得到结果。为解决算法精度损失、准确率低等问题,引入KNN,在原算法基础上进行循环迭代。  相似文献   

4.
在不均衡数据集下,SVM分类超平面的偏移,使得基于KKT条件进行样本选择的增量学习算法性能不佳,针对该问题,提出动态代价的SVM增量学习算法,该算法依据各类样本密度之间的关系动态计算类的错分代价,减少每次迭代中分类超平面偏移造成的错误累积,保证依据KKT条件选取样本的准确性,使得每次迭代选取的样本都包含当前分类器缺少的空间信息,提高最终分类器在不均衡数据集下的分类性能。最后,在UCI数据集上的仿真实验结果表明该算法能够提高不均衡数据下的分类性能。  相似文献   

5.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

6.
SVM算法只使用已归类的数据训练分类器,而EM算法用少量已归类数据,结合大量的未归类数据来训练分类器,在减少已归类数据的同时保证了分类器的精度。本文基于EM算法的思想,根据SVM文本分类模型,提出一种新的迭代SVM文本分类算法。实验结果表明,迭代SVM算法分类精度高于传统的SVM文本分类算法,具有较好的性能。  相似文献   

7.
传统的集中式聚类算法不适宜对传感器网络的分布式数据进行聚类,用遗传进化机制对传统k-means的分布式聚类算法进行优化,可得出遗传k-means聚类算法。遗传k-means聚类算法即在传感器网络中sink节点传送随机选取的初始k个簇心到各个传感器节点,在这些节点上分别用遗传k-means聚类算法将本地的数据划分到距离最近的簇,然后将簇信息在无线传感器网络里通过路由逐层上传合并汇聚到sink节点,计算k个簇心的平均值,再往下传送k个簇心,反复迭代更新直至聚类目标函数值达到最小为止。实验表明,遗传k-means聚类算法的聚类效果较好,收敛速度较快。  相似文献   

8.
BIRCH算法是一种针对海量数据集的聚类算法,通过计算新数据点CF-new与根结点各子节点的距离,反复迭代,最终将CF new加入到Mincluster中,该算法在插入新数据点时没有考虑同一叶子节点下簇簇间关系。针对这一缺陷,提出改进算法BC BIRCH,在CF new与距离最小簇合并后,阈值大于T的情况下,找到与第一次合并的簇距离最小的簇,再次进行合并,反复迭代。最后,将该算法应用于文本挖掘中,其效果比BIRCH算法效果好。  相似文献   

9.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

10.
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。通过基于迭代思想的聚类算法,可对给定的数据对象集合进行层次分解,最终将样本空间分类成有聚类集合。  相似文献   

11.
如何从小样本、高维度特性的功能磁共振成像(fMRI)数据中识别出内在的脑区活动模式,对理解人脑意义重大。随着模式识别技术和机器学习算法的发展,fMRI的分类研究也引起了人们的重视。提出一种对fMRI数据分类的加权随机SVM集群(WRSVMC)算法。该算法分为两步,首先通过随机选择样本和特征建立多个SVM,以构建集成分类器;然后在投票过程中,对每个SVM赋权重,以优化模型的集成性能。结合fMRI数据和图论特征,采用WRSVMC算法对轻度认知障碍(MCI)患者数据展开分类研究。结果表明,准确率最高可达87.67%。该方法能帮助医师对MCI患者进行辅助诊断。  相似文献   

12.
付优 《太原大学学报》2010,11(3):120-123
针对径向基网络对训练样本要求高的情形,将粗糙集和径向基神经网络相结合,提出粗糙径向基神经网络的方法,利用粗糙集对数据进行属性规约,得到适合径向基网络要求的数据,进而提高了其训练速度以及精度。将该方法应用在瓦斯涌出量预测的实验中,并将粗糙径向基神经网络和BP网络的预测结果进行对比,可以得出粗糙径向基网络预测效果比BP的效果好的结论,同时证实该方法的可行性。  相似文献   

13.
Intrusion detection using rough set classification   总被引:2,自引:0,他引:2  
Recently machine learning-based intrusion detection approaches have been subjected to extensive researches because they can detect both misuse and anomaly. In this paper, rough set classification (RSC), a modern learning algorithm, is used to rank the features extracted for detecting intrusions and generate intrusion detection models. Feature ranking is a very critical step when building the model. RSC performs feature ranking before generating rules, and converts the feature ranking to minimal hitting set problem addressed by using genetic algorithm (GA). This is done in classical approaches using Support Vector Machine (SVM) by executing many iterations, each of which removes one useless feature. Compared with those methods, our method can avoid many iterations. In addition, a hybrid genetic algorithm is proposed to increase the convergence speed and decrease the training time of RSC. The models generated by RSC take the form of "IF-THEN" rules, which have the advantage of explication. Tests and compa  相似文献   

14.
Recently machine learning-based intrusion detection approaches have been subjected to extensive researches because they can detect both misuse and anomaly. In this paper, rough set classification (RSC), a modem learning algorithm,is used to rank the features extracted for detecting intrusions and generate intrusion detection models. Feature ranking is a very critical step when building the model. RSC performs feature ranking before generating rules, and converts the feature ranking to minimal hitting set problem addressed by using genetic algorithm (GA). This is done in classical approaches using Support Vector Machine (SVM) by executing many iterations, each of which removes one useless feature. Compared with those methods, our method can avoid many iterations. In addition, a hybrid genetic algorithm is proposed to increase the convergence speed and decrease the training time of RSC. The models generated by RSC take the form of"IF-THEN" rules,which have the advantage of explication. Tests and comparison of RSC with SVM on DARPA benchmark data showed that for Probe and DoS attacks both RSC and SVM yielded highly accurate results (greater than 99% accuracy on testing set).  相似文献   

15.
针对复杂非线性多通道时变信号模式分类问题,提出了一种集成卷积神经网络(CNN)与随机森林(RF)相融合的方法。该方法以CNN为基学习器,自动提取信号样本的抽样特征,同时省去降维与人工选择特征的过程,以RF为次级学习器,增加样本扰动,同时增加属性扰动。为增强样本多样性,使得该模型尽可能充分利用信息,在训练集中随机抽取7份子训练集,再利用7份子训练集训练出7个不同的学习器;最后通过投票法和学习法建立集成模型,提高了识别精度。实验结果表明,在测量区间上,该方法对3种ECG信号类别的平均分类精度达94.60%,提高了1.1%,取得了良好结果,验证了模型和算法的有效性。  相似文献   

16.
把粗糙集与神经网络结合,应用于文本分类,可以充分发挥两种方法的优势,取长补短,粗糙集理论可以有效地对样本集进行约简,从而简化了神经网络的结构,减少了网络的训练次数,学习速度和分类精度明显提高,并用仿真实验验证了此方法的有效性.  相似文献   

17.
吕宏丽 《唐山学院学报》2015,28(3):29-31, 86
将粗糙集理论和神经网络技术应用于变压器故障诊断中,粗糙集约简作为神经网络的前置单元,采用基于属性重要性的约简算法。详细阐述了基于属性重要性的约简算法和实现方法,经实际数据训练和测试结果表明,该算法减少了输入样本数,提高了训练速度效率和故障诊断准确率,验证了该算法应用于变压器故障诊断系统的可行性和有效性。  相似文献   

18.
为提高分类性能,提出了一种新的基于数据离散化和选择性集成的SVM集成学习算法。该算法采用粗糙集和布尔推理离散化方法处理数据集,构造有差异的个体SVM以提高集成学习的性能。在训练得到一批SVM之后,算法采用了选择性集成提高性能并减小集成规模。实验结果表明,所提算法能取得比传统集成学习方法Bagging和Adaboost更好的性能。  相似文献   

19.
熊思 《培训与研究》2009,26(8):87-90
乳腺癌是现代女性最常见的恶性肿瘤之一。支持向量机SVM是一种基于统计学习理论的机器学习算法,它能在训练样本很少的情况下达到良好的分类效果。本文提出一个基于支持向量机的超声乳腺肿瘤图像计算机辅助诊断系统,它由图像预处理、ROI特征提取和SVM分类器异常诊断三个模块构成。通过实验证明,在处理相同的样本数据集时,基于SVM算法的计算机辅助诊断系统相对于BP神经网络,有更高的诊断灵敏度。统计学习理论的发展将更加完善SVM,具有高分类性能的分类器将使计算机辅助诊断的能力进一步提高。  相似文献   

20.
通过学习训练数据集来构造分类树的策略可能无法达到最好的泛化性能。随机噪声和某些决策仅基于少量训练数据的情况都会导致决策树的分类精度下降,并且过度拟合训练数据集。避免过度拟合主要是通过对树的剪枝来实现,包括预剪枝和后剪枝。后剪枝方法有很多种,主要从计算复杂性、误差估计和算法理论基础角度分析其中的REP、MEP和规则后剪枝算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号