首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对核电厂机组能力因子分类研究缺少相对简单有效的方法,基于第一至第八次《中华人民共和国核安全公约国家报告》中世界核电营运者协会(WANO)性能指标的数据,提出一种随机森林模型(random forest,RF)的机组能力因子分类方法,通过估算随机森林模型决策树的棵树、内部节点再划分所需要的最小样本数等,构建最优的随机森林分类模型,成功实现对能力因子的快速和精细分类,为第九次国家报告中定性掌握我国核电机组发电状况及行业内机组所处状况提供依据;同时,选用解决二分类的Logistic回归作对比试验,试验结果表明RF分类算法的总体精度达到77.27%,Kappa系数为0.705 3,达到高度一致性检验标准区间,明显高于Logistic回归的51.14%和0.110 1,RF表现出分类效果好、准确率高和性能稳定等优点,能够有效提高机组能力因子分类的准确度。  相似文献   

2.
随机森林是一种优秀的分类算法,然而随机森林算法不能有效的判断冗余属性,因此影响了在含有冗余属性的数据集上的分类效果。针对这一问题,本文提出了一种基于局部线性嵌入的随机森林算法。该算法利用局部线性嵌入算法对冗余属性数据集进行降维,然后利用随机森林算法进行分类学习。在UCI标准数据集上的仿真实验说明,本文算法是一种优秀的含冗余属性数据集分类算法。  相似文献   

3.
随机森林算法在数据挖掘领域中得到了广泛的应用,该算法通过构建多个不同的决策树可以获得更高的分类结果。但是,随着数据规模的增大,人们开始接触到各大规模的数据以及更高维度的数据属性。传统的随机森林构建算法不能有效、快速地处理海量高维数据,严重影响了数据的分类效率,从而影响预测效率。本文针对高维、海量数据下随机森林构建算法,改进并提高了该算法的效率,提出了基于云计算平台的随机森林构建算法。该算法可以快速的完成数据分类预测,并通过实验结果进一步展示了该算法的效率以及可扩展性。  相似文献   

4.
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

5.
尝试将数据挖掘算法应用于降水相态判别,将2010-2014年冬季降雪过程中103个样本,抽象成雪(yes),雨(no)的二元分类问题。选取被认为可能对相态变化较为重要的500 h Pa和1000 h Pa厚度差、零度层高度,暖层厚度,云顶温度,925 h Pa温度等11个因子。借助数据挖掘的C5.0决策树算法和随机森林算法,构建模型。采用十折交叉验证评估模型性能,表明两种方法预测结果均较准确,其中随机森林算法表现更优,且对不同数据预测效果都较为稳定。决策树算法所用的因子信息较少,得到的准确率相对较低。随机森林算法可以使每个变量得到充分训练,判断准确率明显提高。  相似文献   

6.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。  相似文献   

7.
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。  相似文献   

8.
决策树是一种有效的数据分类方法。粗糙集理论把知识和分类紧密联系起来,为处理不精确、不完全数据的分类问题提供了一种更符合人类认知的数学工具。提出了把后继节点的变精度加权平均粗糙度和值作为属性选择标准构造决策树的改进新算法。新算法用变精度代替近似精度,能有效地克服噪声数据在构造决策树过程中对刻画精度的影响,使生成的决策树复杂性降低,泛化能力更强。  相似文献   

9.
决策树算法是数据挖掘领域的核心分类算法之一,ID3算法则是最为经典的决策树算法。本文以ID3数据挖掘算法在债务管理中的应用为例,验证了算法的性能。  相似文献   

10.
【目的/意义】数据分类是数据挖掘研究的重要内容之一。数据分类时,由于单一分类算法分类性能的差异 性,使其不能很好地解决大部分的分类问题,探讨一种基于多类型分类器装袋技术的数据分类方法具有重要理论 意义和应用价值。【方法/过程】基于分类性能评价的准确率,使用五种不同类型的分类算法作为分类器,随机抽取 训练集后分别训练得到若干个弱分类器,然后采用自动优化加权方式,组合构建一个强的分类器。通过实验对五 种分类算法和装袋算法的分类准确率均值和标准差分别进行对比,得出各分类算法在四种数据集上分类性能的优 劣和稳定性。【结果/结论】在四个UCI数据集上的实验结果表明,与五种不同类型的分类算法相比,装袋算法不仅 在大部分数据集上都表现出很好的稳定性,而且具有更好的泛化能力。  相似文献   

11.
目的:探讨C4.5决策树算法结合主成分分析法(PCA)在新疆高发病食管癌X钡剂造影图像分类中的应用。方法:选取新疆高发病食管癌图像200张,其中蕈伞型和溃疡型图像各100张。对图像进行归一化、去噪和空间转换等预处理;对图像进行二尺度小波变换提取图像的低频信息,然后对其进行灰度共生矩阵法提取图像的特征;采用主成分分析(PCA)法对所提取的特征进行筛选;通过构造决策树C4.5算法分类器来验证特征的分类能力。结果:使用决策树C4.5算法分类器,对主成分分析获取的特征及综合特征进行分类。PCA选择的特征分类准确率为95%;使用综合特征分类准确率为80%。结论:综合特征的分类准确率与PCA选择的特征相比较低,表明在进行分类时,冗余特征可能会降低分类准确率;而本研究采用PCA选择后的特征分类准确率较高,表明该算法能有效减少冗余特征,弥补了过高维数的特征向量易引起维数灾难的问题,从而使得分类准确率得到了提高。一定程度上为后续的其它组织器官的特征提取提供了依据。  相似文献   

12.
犯罪预测一直是公安部门亟待解决的突出问题。基于随机森林这种模型组合分类器,结合机器学习技术在犯罪预测中的应用现状,提出了一种用于预测犯罪的新的分类方法,并通过模拟实验来展示这种分类方法比一般的随机森林分类会有更高的可信度。创新之处在于提出的这种随机森林分类器的每一棵树都是退化的决策树,并且根据在线学习的结果在下一轮的分类中选择区分度更高的决策树。最终给出一个应用于犯罪预测的较为成功的分类器的思路和模式,得出准确有效的预测结论。  相似文献   

13.
归纳学习训练样本能够产生决策规则或决策树,通过决策规则或决策树分类新数据的方法称为决策树。本文以大连市旅顺口区为研究区域,分析该区影像信息选取分类样本,选取合适的特征,统计分析样本的特征值,运用基于特征的决策树分类方法,设计决策树分类器,来解决该区域土地利用分类问题。  相似文献   

14.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,本文提出了一种基于MapReduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入了统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用MapReduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,本文算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和大数据处理能力。  相似文献   

15.
目的:研究数据挖掘算法对乳腺肿瘤超声图像特征的属性选择优化,探讨适用于乳腺肿瘤良恶性分类的数据挖掘分类算法。方法:对乳腺肿瘤超声图像进行预处理,获取病灶区形状,提取病灶区图像形态、形状、纹理特征。应用数据挖掘算法进行图像特征属性选择,形成优化的乳腺肿瘤超声图像混合特征。应用分类算法评价其分类性能,筛选适用于乳腺肿瘤良恶性判定的数据挖掘分类算法。结果:利用混合特征结合随机森林算法对图像进行分类,其ROC曲线下面积AUC为0.7914,平均查准率达到了79%。结论:属性选择优化后的混合特征对乳腺肿瘤良恶性分类性能高于其他特征。在混合特征条件下,随机森林分类算法性能与Bayes网络相近,分类准确率高且性能稳定,更适于乳腺肿瘤良恶性分类评价。  相似文献   

16.
决策树分类算法研究综述   总被引:4,自引:0,他引:4  
本文基于决策树分类算法的研究现状,重点介绍了一些极具代表性的算法,包括ID3、C4.5等,对各种决策树分类算法的基本思想进行阐述,分析比较各种典型算法的优点和不足,并对决策树分类算法所面临的问题进行了简要的阐述,为数据分类研究者提供借鉴。  相似文献   

17.
通过随机森林算法获取变量的重要性并进行排序,确定模型参数,建立分类预测模型。实验表明,依据随机森林算法建立的模型,具有很好的分类及预测能力。  相似文献   

18.
特征选择和分类器设计是网络攻击监测的关键,为了提高网络攻击监测率,针对特征选择问题,提出一种蚁群算法选择特征和SVM特征加权相结合的网络攻击检测方法(ACO-SVM)。首先利用支持向量机的分类精度和特征子集维数加权构造了综合适应度指标,利用蚁群算法的全局寻优和多次优解搜索能力实现特征子集搜索;然后选择网络数据的关键特征,计算信息增益获得各个特征权重,并根据特征权重构建加权支持向量机的网络攻击分类器;最后设计了局部细化搜索方式,使得特征选择结果不含冗余特征的同时提高了算法的收敛性,并通过KDD1999数据集验证了算法有效性。结果表明,ACO-SVM有效降低了特征维数,提高了网络攻击检测正确率和检测速度。  相似文献   

19.
提出一种面向决策树目标路径编码的相空间嵌入维计算优化算法。构建云平台环境下的数据交互节点拓扑模型,通过部分链路失效多路径加密方法使得数据聚集具有很高的容错功能,然后采用决策树目标路径编码方案,在给定带宽约束和量化阈值的情况下,对决策树目标路径编码的相空间嵌入维数据进行自适应的量化分解,以实现对决策树目标路径编码的相空间嵌入维的准确估计,降低误码率。仿真结果表明,该算法能准确估计相空间嵌入维,提高估计精度,能有效降低误码率,提高数据动态交互通信的准确性,信号保真度较高。展示了其优越性和较好的应用价值。  相似文献   

20.
架空输电线路铁塔结构是我国主要的输电方式,一旦发生损伤破坏将造成严重的经济损失。本文提出了一种基于随机森林的数据融合架空输电线路损伤识别方法。首先,采用多个传感器获取铁塔在不同损伤位置和程度上的振动加速度信号,并运用小波包对其进行多层分解;然后,将提取出来的各频带能量值构成特征向量输入到相应的随机森林进行训练和测试;最后,将多个随机森林分类器的次级决策进行数据融合,做出最终铁塔损失情况决策。应用该方法对500kV高压输电铁塔模型进行试验,并与单一分类器相比较。通过对实验数据的分析表明,该方法对铁塔损伤的识别效果优于单一RF分类器,可以有效地改善单一分类器的识别能力。同时也表明该方法具有较好的分类效果和容错能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号