首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
决策树后剪枝算法的研究   总被引:2,自引:0,他引:2  
决策树学习策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树剪枝的作用是简化决策树,提高决策树的泛化能力,避免对训练集的过适应,是决策树学习中的重要研究内容。本详细描述了常用的四种后剪枝算法,分析了后剪枝技术的研究与发展现状,为具体应用中选择剪枝算法提供了一定的理论基础。  相似文献   

2.
王琴竹 《运城学院学报》2011,29(2):53-54,57
决策树算法广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树算法中的过度拟合会在很大程度上影响到最终的分类结果。针对过度拟合产生的原因,采用悲观错误剪枝方法,对学生成绩决策数据进行分析,得出影响学生成绩的重要因素。实验表明,该方法可以得到尽可能短的分类规则,有效地提高了决策树的性能。  相似文献   

3.
分类回归树是一种优良的决策树算法,有广泛的应用。本文探讨了分类回归树算法及应用,首先回顾了分类回归树的起源及应用,其次分析了分类回归树在均匀成本和非均匀成本下的构造,接着讨论了分类回归树的剪枝和验证过程,最后我们对其进行了总结。  相似文献   

4.
刘冲  杨磊  李娜 《教育技术导刊》2016,15(12):33-34
分类是数据挖掘的一个重要课题。分类的目的是建立一个分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个利用该模型形成分类规则并预测未来数据趋势。决策树归纳是经典的分类算法,构建决策树模型算法中最有影响力的方法是ID3算法。针对ID3算法缺点,使用预剪枝和后剪枝相结合的办法处理决策树中的过学习情况,可生成一个更简单、更精确的决策树。  相似文献   

5.
针对决策树算法C4.5在处理数据挖掘分类问题中出现的算法低效以及过拟合问题,提出一种改进的TM-C4.5算法。该算法主要改进了C4.5算法的分支和剪枝策略。首先,将升序排序后的属性按照边界定理,得出分割类别可能分布的切点,比较各点的信息增益和通过贝叶斯分类器得到的概率,使用条件判断确定最佳分割阈值;其次,使用简化的CCP(Cost-Complexity Pruning)方法和评价标准,对已生成决策树的子树根节点计算其表面误差率增益值和S值,从而判断是否删除决策树节点和分支。实验结果表明,用该算法生成的决策树进行分类更为精确、合理,表明TM-C4.5算法有效。  相似文献   

6.
卷积神经网络的深度学习在图像识别领域取得了巨大的成功,但是训练一个深度学习网络需要大量的数据样本。在实际工作中,很难得到大量的训练样本,在数据集有限的情况下,容易过度拟合。针对这一问题,设计了一种基于转移学习的深度卷积神经网络来解决小样本数据集的问题。采用数据扩充的方法来扩大样本数据集的数量,利用转移学习将训练好的网络(CNN)从大样本数据集中转移到的小样本数据集中进行二次训练,使用全局平均池而不是全连接层来训练网络,并利用Soft max进行分类。该方法解决了深度学习中样本数据集小的问题,提高了操作效率。实验结果表明,该方法对小样本数据集的分类具有较高的识别率。  相似文献   

7.
提出了一个基于统计分析的数据分类算法.通过使用从训练集中提取的信息,对支持集选择问题进行建模,以得到具有良好分离能力的小型支持集.采用混合整数规划模型计算最优的权重值和分类阈值,通过将样式加权和与分类阈值进行比较来对数据进行分类.并使用真实数据集对本算法进行性能评估.实验结果表明:本算法不仅能提高分类的精度,还能有效减少分类所需的计算时间.  相似文献   

8.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

9.
为了解决频繁闭项目集挖掘中时间和存储开销大的问题,提出了一种基于FC-tree(频繁闭模式树)的频繁闭项目集挖掘算法max-FCIA(最大频繁闭项目集挖掘算法).该算法利用哈希表映射事务数据库,通过对哈希表进行操作从而得到所有频繁项目集的支持度,进而生成包含所有频繁项目的有序树.经过剪枝处理的有序树就是包含所有最小频繁闭项目集的FC-tree,最后用最小频繁闭项目集生成频繁闭项目集.实验结果表明,该算法通过映射事务数据库,减少了扫描数据库所浪费的时间,提高程序执行效率.另外,运用有效的剪枝策略,避免了不必要候选项目集的生成,节省了存储空间,实验证明该算法是有效的.  相似文献   

10.
提出了一种新的挖掘最大频繁集的深度优先算法GMPV。该算法利用集合枚举树,并用位置向量来表示项目子集,挖掘过程中使用了超集检测和基于支持度的剪枝技术,减少了某些项目子集的支持度计算。  相似文献   

11.
果树整形修剪技术性强,操作复杂,灵活多变,初学者在短期内很难掌握,在教与学之间形成了一道难关。作者根据教学和生产实践经验,通过对整形修剪理论教学的改革和技能训练方法的探索,形成了一个高效、快捷、易行、实用的修剪技能训练新方法。教学实践证明,此方法能够有效地增强学生的学习兴趣,缩短教学时间,提高教学质量。  相似文献   

12.
This paper presents a new efficient algorithm for mining frequent closed itemsets. It enumerates the closed set of frequent itemsets by using a novel compound frequent itemset tree that facilitates fast growth and efficient pruning of search space. It also employs a hybrid approach that adapts search strategies, representations of projected transaction subsets, and projecting methods to the characteristics of the dataset. Efficient local pruning, global subsumption checking, and fast hashing methods are detailed in this paper. The principle that balances the overheads of search space growth and pruning is also discussed. Extensive experimental evaluations on real world and artificial datasets showed that our algorithm outperforms CHARM by a factor of five and is one to three orders of magnitude more efficient than CLOSET and MAFIA.  相似文献   

13.
INTRODUCTIONMiningfrequentitemsetsisafundamentalandessentialprobleminmanydataminingapplica tionsincludingthediscoveryofassociationrules,strongrules,correlations,sequentialrules,epi sodes,multi dimensionalpatterns,andmanyoth erimportantdiscoverytasks (AgarwalandSri kant,1994;Wangetal.,2 0 0 2 ) .Mostalgo rithmsproposedsofarworkwellondatasetswherethesizesofitemsetsarerelativelysmall.Howev er,theyusuallycrashwithdensedatasetswheretheitemsetsizesarelarge.Suchdatasetsincludethosecomposedofque…  相似文献   

14.
Attribute reduction is necessary in decision making system. Selecting right attribute reduction method is more important. This paper studies the reduction effects of principal components analysis (PCA) and system reconstruction analysis , SRA) on coronary heart disease data. The data set contains 1723 records, and 71 attributes in each record. PCA and SRA are used to reduce attributes number (less than 71 ) in the data set. And then decision tree algorithms. C4.5, classification and regression tree ( CART), and chi-square automatic interaction detector ( CHAID ), are adopted to analyze the raw data and attribute reduced data. The parameters of decision tree algorithms, including internal node number, maximum tree depth, leaves number, and correction rate are analyzed. The result indicates that. PCA and SRA data can complete attribute reduction work. and the decision-making rate on the reduced data is quicker than that on the raw data: the reduction effect of PCA is better than that of SRA. while the attribute assertion of SRA is better than that of PCA. PCA and SRA methods exhibit good performance in selecting and reducing attributes.  相似文献   

15.
园林树木修剪是园林专业园林树木栽培养护学课程的重要实习内容。根据实习课程内容和实践教学特点,对树木修剪实习在教学时间安排、树种选择、实习组织、多媒体的配合应用、实习的延伸五个方面进行了改革与实践。通过实习教学改革,提高了学生的实践和创新能力。  相似文献   

16.
INTRODUCTION Land resources management and ecologicalenvironmental decision-making requires knowl-edge about the spatial distribution, and quantity andquality of soil resources. Soil maps have tradition-ally been made by interpretation of remotely sensedimagery supported by ground surveys. Thus, soilmapping becomes expensive, labor-intensive, andtime-consuming exercises. Moreover, it also issubjective, and may result in inconsistencies in theassignment of soil type boundaries or nam…  相似文献   

17.
This article presents two approaches for automated building of knowledge bases of soil resources mapping.These methods used decision tree and Bayesian predictive modeling,respectively to generate knowledge from training data.With these methods,building a knowledge base for automated soil mapping is easier than using the conventional knowledge acquisition approach.The knowledge bases built by these two methods were used by the knowledge classifier for soil type classification of the Longyou area,Zhejiang Province,China using TM bi-temporal imageries and GIS data.To evaluate the performance of the resultant knowledge bases,the classification results were compared to existing soil map based on field survey.The accuracy assessment and analysis of the resultant soil maps suggested that the knowledge bases built by these two methods were of good quality for mapping distribution model of soil classes over the study area.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号