首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
C4.5 算法是数据分类的经典数据挖掘算法。整合并规范了临床确诊病例中的糖尿病并发症数据,同时进行了粗糙集约简,并运用C4.5算法实现了分类。研究表明,该方法能很好地实现决策分类,以辅助临床诊断。  相似文献   

2.
针对决策树算法C4.5在处理数据挖掘分类问题中出现的算法低效以及过拟合问题,提出一种改进的TM-C4.5算法。该算法主要改进了C4.5算法的分支和剪枝策略。首先,将升序排序后的属性按照边界定理,得出分割类别可能分布的切点,比较各点的信息增益和通过贝叶斯分类器得到的概率,使用条件判断确定最佳分割阈值;其次,使用简化的CCP(Cost-Complexity Pruning)方法和评价标准,对已生成决策树的子树根节点计算其表面误差率增益值和S值,从而判断是否删除决策树节点和分支。实验结果表明,用该算法生成的决策树进行分类更为精确、合理,表明TM-C4.5算法有效。  相似文献   

3.
谢秋华 《三明学院学报》2012,29(4):34-39,100
介绍了一种C4.5算法的改进方法,即在计算属性信息增益率时只用到加减乘除运算,而不是像C4.5那样的大量用到对数运算。实验表明,改进的C4.5算法在不改变模型预测准确率的同时,减少了计算时间,提高了决策树的生成效率,而后将改进的C4.5算法作用于《大学计算机基础》课程的成绩分析,得到的分析结果用于辅助指导教师对《大学计算机基础》课程的教学工作,能够更好地促进教学,提高学生对此门课程的掌握程度和为普及计算机做出帮助。  相似文献   

4.
为了提高C4.5决策树算法的有效性,提出一种改进的C4.5决策树算法。结合粗糙集理论的属性约简算法和Fayyad边界点判定定理,对C4.5算法进行了改进,利用UCI数据集进行了实验。结果表明,改进的C4.5算法不仅提高了准确率,而且缩小了决策树规模,减少了分类时间。  相似文献   

5.
车辆加速性能是衡量驾驶员对车辆驾驶舒适性的一个标准。传统的车辆加速性能是通过判断加速踏板开度衡量的,加速踏板出厂时设置为不能自动调整。采用改进的C4.5算法对车辆加速性能分类,实现自动调整加速踏板开度。首先通过泰勒中值定理对C4.5算法进行简化,然后对车联网数据进行特征提取,生成判断加速性能的决策树分类规则,测试特征提取的并行化运行效率。通过特征提取后的数据集验证了改进的C4.5算法效率和准确率。测试结果表明,改进算法在不降低分类准确率的前提下,有效提高了分类效率。  相似文献   

6.
文章主要采用数据挖掘技术中的决策树C4.5算法,对本校学生成绩中的大量数据进行处理,从中选取决策属性,构造决策树,并提取分类规则,从而获取不同类型的学生与成绩之间的关系.试验结果表明,C4.5算法能够将数据进行准确分类和预测,最终得到有价值的结论,供教师决策分析.  相似文献   

7.
本文采用C4.5算法构造决策树的方法,对学生的成绩进行分析并找出影响成绩的主要因素和规则,给教师调整教学环节提供参考,对学生管理工作提出意见,从而指导教育教学工作。  相似文献   

8.
9.
介绍了一种一般情况下的C4.5数据挖掘算法的优化方法。原来的C4.5算法在计算属性信息增益率时需要大量用到对数运算,而优化后的C4.5算法计算属性信息增益率时只需用到加减乘除运算,在实现时不用频繁调用对数函数,优化后的算法不会改变属性信息增益率的排序,不改变生成的决策树。改进后的算法能做到在不改变准确率和不增加空间复杂度的情况下,减少时间复杂度,提高了决策树生成效率。  相似文献   

10.
将数据挖掘中的C4.5算法应用于应用型本科院校的就业管理信息系统中,有利于发掘出应用型毕业生就业中隐藏的有用因素和内在联系,对促进学校进行教学改革,指导学生提高自身素质和知识结构,从而最大程度的提高毕业生的就业率。  相似文献   

11.
混合生产过程是一类典型的混杂系统,难以用准确的数学解析式来实现生产过程的优化与控制。提出了基于C4.5算法的混合生产过程优化与控制方法。首先利用混合整数线性规划求解混合生产过程最大值的数据集,然后采用C4.5决策树算法挖掘混合生产过程参数与最大生产值之间的关联规则,最后利用关联规则实现混合生产过程的优化与控制。实验结果表明了该方法的有效性。  相似文献   

12.
针对国内高职学生首次职业类型选择状况进行了研究,介绍了数据挖掘、决策树、C4.5算法,对高职学生职业类型选择数据进行预处理,应用 C4.5算法构造高职学生首次职业类型选择决策树并使用事后修剪法对其进行了修剪,从中抽取出高职学生首次职业类型选择与大学阶段习得的德、体、智、能和专五个方面能力之间的潜在规则并对其做了验证分析,挖掘出的规则为高职学生首次职业类型选择进行动态预测并对其就业提供指导。  相似文献   

13.
粗糙集理论是用来解决不确定性的新的数学工具,而知识约简是粗糙集理论中一个重要的研究课题。J.W.Guan等提出了信息系统下的矩阵算法。章则是进一步讨论不完备信息表下的矩阵约简算法,实例表明该算法是有效的,具有一定的应用价值。  相似文献   

14.
属性约简是基于粗糙集的数据挖掘方法中最重要的思想和算法,采用经典的数据分析工具得到最小约简是一个NP问题,由此产生了许多启发式属性约简算法。对不完备信息系统中数据动态变化的问题做了研究,对已有的算法做了改进,并通过实际算例分析,验证了算法的有效性。  相似文献   

15.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

16.
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。对网络课程知识点个性化设计中的大量数据,运用数据挖掘算法中的决策树C4.5算法对所给数据进行处理,选取决策属性,构造决策树,提取分类规则,获取每一个知识点与不同类型的学生之间的关系。通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果。  相似文献   

17.
命题联结词集合的完备性和不完备性是命题逻辑中一种有趣的现象,证明了联结词集合{∨,∧,→,}和{~,}的不完备性,并在表明联结词集合{~,∧},{~,∨}和{~,→}是完备的基础上证明了两个单元集{↓}和{|}是完备的。  相似文献   

18.
分类技术中的决策树算法分析   总被引:6,自引:0,他引:6  
介绍了解决分类问题的常用方法——决策树。并对决策树的原理及Quinlan的ID3、C4.5两种主要的决策树算法进行了分析。通过分析它们的基本原理以及主要特点,提出了对决策树算法改进的展望。  相似文献   

19.
目的:可靠性优化需要精确度量含不确定性变量的系统可靠性。然而,工程实践中往往不能获取充足的样本数据计算可靠性指标,因此本文针对不完备数据下的系统可靠性度量开展研究。创新点:1.提出了随机变量、稀疏变量以及区间变量混合不确定性下的可靠性度量方法;2.本方法可以推广到p-box和证据理论变量等不确定性变量。方法:1.建立不完备数据下的失效概率函数;2.基于中间辅助变量实现失效概率的一致性计算;3.针对数据不完备前提下失效概率自身也是不确定性变量的问题,对失效概率指标进行敏感度分析;4.将提出的失效概率计算方法推广到p-box变量、多模态分布变量以及证据理论变量;5.采用经典函数案例验证方法的有效性,并将方法应用于锻压机的可靠性分析。结论:1.不完备数据下的系统可靠性存在较大的不确定性;2.通过中间辅助变量可以精确分析混合不确定性下系统的失效概率,确定失效概率的随机分布特性;3.提出的方法可以用较少的计算时间获得准确的可靠性结果;4.本文方法可以扩展到更多不确定性类型的可靠性分析,辅助混合不确定性优化设计。  相似文献   

20.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号