首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
大数据时代,数据量呈现爆炸式增长,且在内容与形式上日益复杂化,造成数据质量下降、数据丢失等,即产生不完备数据。提出一种改进的C4.5算法,使其能更好地处理不完备数据。每次特征选择前对本次特征选择的数据子集使用子集匹配方法进行处理,通过比较数据清洗方法与子集匹配方法的结果,显示即便是在相同清洗规则下,子集匹配方法在算法分类准确率上也更有优势。实验结果证明,在利用C4.5算法进行特征选择时,在该数据子集上对不完备数据进行处理,可以得到较高的分类准确率,同时得到比数据清洗高的时间复杂度。  相似文献   

2.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

3.
本文采用C4.5算法构造决策树的方法,对学生的成绩进行分析并找出影响成绩的主要因素和规则,给教师调整教学环节提供参考,对学生管理工作提出意见,从而指导教育教学工作。  相似文献   

4.
关联规则挖掘的一种改进算法   总被引:1,自引:0,他引:1  
关联规则的提取是数据挖掘中的重要研究课题,文章对关联规则提取中的Apriori算法进行了深入研究,指出了该算法的某些不足,提出了一种改进算法.  相似文献   

5.
针对决策树算法C4.5在处理数据挖掘分类问题中出现的算法低效以及过拟合问题,提出一种改进的TM-C4.5算法。该算法主要改进了C4.5算法的分支和剪枝策略。首先,将升序排序后的属性按照边界定理,得出分割类别可能分布的切点,比较各点的信息增益和通过贝叶斯分类器得到的概率,使用条件判断确定最佳分割阈值;其次,使用简化的CCP(Cost-Complexity Pruning)方法和评价标准,对已生成决策树的子树根节点计算其表面误差率增益值和S值,从而判断是否删除决策树节点和分支。实验结果表明,用该算法生成的决策树进行分类更为精确、合理,表明TM-C4.5算法有效。  相似文献   

6.
为了提高C4.5决策树算法的有效性,提出一种改进的C4.5决策树算法。结合粗糙集理论的属性约简算法和Fayyad边界点判定定理,对C4.5算法进行了改进,利用UCI数据集进行了实验。结果表明,改进的C4.5算法不仅提高了准确率,而且缩小了决策树规模,减少了分类时间。  相似文献   

7.
现代计算机网络的迅速发展和网络数据量的大幅增加导致了对网络数据挖掘的需求变的越来越迫切.网络数据具有分布范围广、数据量大、时间跨度长等特点.如何对这些海量数据进行高效查询并对查询结果进行最优收敛成为研究的热点.免疫算法以遗传算法的全局性群体搜索方式为基础,模拟生物免疫系统对本代群体进行优化,有利于查询结果的快速收敛,大大提高了查询效果.  相似文献   

8.
文章主要采用数据挖掘技术中的决策树C4.5算法,对本校学生成绩中的大量数据进行处理,从中选取决策属性,构造决策树,并提取分类规则,从而获取不同类型的学生与成绩之间的关系.试验结果表明,C4.5算法能够将数据进行准确分类和预测,最终得到有价值的结论,供教师决策分析.  相似文献   

9.
在FDM算法的基础上,提出了一种改进的并行关联规则挖掘算法FDM_DT,此算法利用DHP算法中的Hash表技术改进了2阶侯选项集的生成过程,并采用Apriori Tid算法中的Tid表技术对事务数据库中的事务数进行有效消减。因此,此算法在处理大规模数据时有较高的综合效率。  相似文献   

10.
改进后的Fp-Growth挖掘算法适用于对大型数据库的数据关联规则的挖掘,基于一种新的数据库分隔方法来分隔数据库,并对分隔得到的各数据库子集用算法进行约束频繁项集挖掘。改进的数据库划分策略克服了占用内存大的缺陷,提高了挖掘速度,实时性更强。  相似文献   

11.
谢秋华 《三明学院学报》2012,29(4):34-39,100
介绍了一种C4.5算法的改进方法,即在计算属性信息增益率时只用到加减乘除运算,而不是像C4.5那样的大量用到对数运算。实验表明,改进的C4.5算法在不改变模型预测准确率的同时,减少了计算时间,提高了决策树的生成效率,而后将改进的C4.5算法作用于《大学计算机基础》课程的成绩分析,得到的分析结果用于辅助指导教师对《大学计算机基础》课程的教学工作,能够更好地促进教学,提高学生对此门课程的掌握程度和为普及计算机做出帮助。  相似文献   

12.
近年来,数据挖掘技术的研究备受国内外关注,其主要原因是信息技术发展产生了大量分散的数据,迫切需要将这些数据转换成有用的信息和知识.此前的研究,主要集中于分类算法及应用方面的研究,但某些特殊领域,如生物信息学研究等,需要通过聚类方法解决一些实际问题.本文从横向深入分析了数据挖掘技术中聚类算法的发展,对层次法、划分法、模糊法,以及量子聚类、核聚类,基于密度和网格等10种聚类算法的原理、过程和特点等都进行了比较详细的分析论述.  相似文献   

13.
关联规则挖掘是一种最有影响的数据挖掘技术。它在交易数据库或其他数据仓库项目集之中提取有意义的关联,频繁模式和关联。大多数现有的算法发现频繁模式都需要多次遍历数据库,导致大量的磁盘读取,造成了巨大的I/O负载。为了减少重复读盘,本文提出了一种新的自上而下的方法,即Apriori算法的改进版本,此算法大大降低了数据库的扫描次数,避免生成不必要的模式而减少了数据库的扫描,节省了大量的时间和空间。  相似文献   

14.
总结了数据挖掘的基本方法、文本数据挖掘的关键技术,讨论了文本挖掘的定义和文本分类的一些形式,并对文本数据的数据挖掘算法进行了研究。  相似文献   

15.
数据挖掘在提高学生成绩中的应用   总被引:1,自引:0,他引:1  
该文针对部分大学生对低年级课程不够重视这一现象,采用数据挖掘中的关联规则算法找出大学课程之间的内在联系,而后建立成绩预警模型,对相关的学生提出警告并指明努力的方向,从而能尽早使学生对相关的课程引起足够的重视.  相似文献   

16.
遗传算法在数据挖掘中的应用研究   总被引:2,自引:0,他引:2  
将遗传算法应用到关联规则的挖掘,提出采用遗传算法提取关联规则的方法,并讨论遗传算法的编码方法和适应度函数的构造.最后结合一个具体的实例,给出基于遗传算法的关联规则的提取算法.  相似文献   

17.
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。对网络课程知识点个性化设计中的大量数据,运用数据挖掘算法中的决策树C4.5算法对所给数据进行处理,选取决策属性,构造决策树,提取分类规则,获取每一个知识点与不同类型的学生之间的关系。通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果。  相似文献   

18.
聚类算法是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。通过分析研究数据仓库及数据挖掘中聚类算法的现状,对数据挖掘中常见的几种聚类算法的性能进行相互比较,并分析它们各自的优缺点,对数据挖掘中聚类算法的发展趋势作出展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号