首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

2.
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

3.
决策树分类过程中,最关键的是结点分裂属性的选择。文章分析了目前常见选择分裂属性方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,实验显示该方法在分类错误率方面好于以信息熵为基础的方法。  相似文献   

4.
刘星毅  黄月秀 《大众科技》2007,(10):213-214
决策树分类过程中,最关键的是结点分裂属性的选择.文章分析了目前常见选择分裂属性方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,实验显示该方法在分类错误率方面好于以信息熵为基础的方法.  相似文献   

5.
[目的/意义]旨在深入研究情境信息对用户偏好的影响,提高情境感知推荐的准确性。[方法/过程]提出了基于梯度提升决策树的情境感知推荐模型,根据梯度提升决策树计算情境属性权重,将其与传统协同过滤算法相融合,生成情境感知推荐结果。[结果/结论]该模型可以识别影响用户偏好的重要情景属性,为用户提供个性化推荐服务。  相似文献   

6.
石东贤 《科技风》2012,(2):277-278
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。  相似文献   

7.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。  相似文献   

8.
为提高彩色图像分割精度,解决传统分水岭图像分割算法误分割率高等问题,本文提出了一种基于改进分水岭算法的彩色图像分割方法。建立了基于偏微分方程的去噪模型,既可以抑制噪声又可以有效地保护图像轮廓。结合数学形态学、图像信息熵、区域合并实现图像分割。在彩色图像RGB空间利用信息熵求取形态学梯度,然后对彩色梯度图进行分水岭分割,最后进行区域合并。仿真结果表明:本文所述分割方法准确度和清晰度较好,噪声抑制效果理想而且分割速度较快。  相似文献   

9.
针对标准ID3算法在数据规则挖掘的应用中还存在运算时间长、规则挖掘效果不好等问题。本文提出了一种基于属性增益优化ID3算法的体育训练数据规则挖掘模型,首先利用凸函数的性质来改进信息量公式,通过对数据集中属性选择标准的改变从而降低决策树的计算成本,减少决策树的生成时间,之后计算取值较多且不重要的属性信息时,将经验知识度参数引入从而避免取值少的属性被抛弃。此后又进行了专门的仿真实验,实验结果表明,与传统的算法相比,本文设计的经过改进的ID3算法在建树时间和规则数目这两个方面都具有更好的性能。  相似文献   

10.
针对标准C4.5算法在词性分析的应用中表现出精确性不高、运算速度不快的问题,本文提出了一种基于候选属性规则优化C4.5算法的词性分析模型,首先以信息增益的思想为鉴,辅之以关联规则,制定一个与参数支持度和可信度相近的评价标准,由此来对候选属性规则进行优化,之后再在信息增益率计算过程中,降低决策树的计算成本由此来节省决策树的生成时间。本研究还进行了专门的仿真试验,实验结果表明,与标准算法相比,本文设计的改进模型在精确性和运算速度方面都有更好的效果。  相似文献   

11.
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。  相似文献   

12.
针对Apriori算法的存在产生大量的候选频繁集合的缺点,本文提出了基于加权代价敏感的非频过滤矩阵Apriori算法,通过在FP-tree算法的基础上构造的决策树对应的数据进行代价敏感学习;设定不同的数据的权值,设定加权置信度;非频集过滤矩阵寻找频集,生成强关联规则;构成非频集过滤Apriori算法对应的初始矩阵;构建代价敏感的非频集过滤矩阵等措施提高了算法的挖掘效果。  相似文献   

13.
决策树算法是数据挖掘系统中一个重要的分类算法,选择合理而有效的测试属性以及对决策树进行适当的修剪是决策树算法的关键内容之一。将决策树算法引入教务管理挖掘系统,并对决策树测试属性的选择算法以及预剪枝算法进行改进。以九江学院学生四级考试信息为例,结果表明改进的决策树算法对于数据挖掘更具可靠性和有效性。  相似文献   

14.
随机森林算法在数据挖掘领域中得到了广泛的应用,该算法通过构建多个不同的决策树可以获得更高的分类结果。但是,随着数据规模的增大,人们开始接触到各大规模的数据以及更高维度的数据属性。传统的随机森林构建算法不能有效、快速地处理海量高维数据,严重影响了数据的分类效率,从而影响预测效率。本文针对高维、海量数据下随机森林构建算法,改进并提高了该算法的效率,提出了基于云计算平台的随机森林构建算法。该算法可以快速的完成数据分类预测,并通过实验结果进一步展示了该算法的效率以及可扩展性。  相似文献   

15.
针对目前CAN总线异常检测方法无法检测出异常情况等缺点,设计研究了基于决策树的车载CAN总线异常检测技术。构建了决策树CAN总线异常检测模型,详细阐述了决策树模型生成流程以及车载CAN总线报文异常检测流程。另外对CAN总线数据决策树生成算法进行设计说明。最后针对该设计方法进行了实验仿真分析,结果表明其能够相对非常准确的检测定位出异常报文,这为后续的研究奠定了基础。  相似文献   

16.
粗糙集属性约简算法综述   总被引:1,自引:0,他引:1  
属性约简是粗糙集理论中最核心的问题。文章阐述了基于信息熵、可辨识矩阵、遗传算法、Johnson等粗糙集属性约简算法流程,指出了粗糙集属性约简算法的现有问题及发展趋势,促进粗糙集属性约简的研究进一步发展。  相似文献   

17.
基于现行数据隐私问题日益严重,如何防止数据挖掘过程中隐私信息的泄漏,将是一个重要的研究议题。就此提出了一个多单位合作的决策树隐私保护方法,并重点分析了该方法所具有的安全性和通讯量,方法以C4.5算法为基础并利用垂直属性分割在水平数据库环境下进行挖掘,方法主要是保护不同单位间挖掘出的规则不被其它单位获取,同时又能达到准确无误差的共同挖掘结果。  相似文献   

18.
决策树是一种有效的数据分类方法。粗糙集理论把知识和分类紧密联系起来,为处理不精确、不完全数据的分类问题提供了一种更符合人类认知的数学工具。提出了把后继节点的变精度加权平均粗糙度和值作为属性选择标准构造决策树的改进新算法。新算法用变精度代替近似精度,能有效地克服噪声数据在构造决策树过程中对刻画精度的影响,使生成的决策树复杂性降低,泛化能力更强。  相似文献   

19.
给出了一个基于布尔矩阵的单属性依赖集候选码求解算法,该算法不用考虑N类属性、回路、子图等问题,能够非常容易的在计算机上编程实现,能十分有效地求出指定问题域中的所有候选码。同时,该算法也为复合属性依赖集的候选码求解方法提供了良好的基础。  相似文献   

20.
局部保护投影(LPP)算法属于无监督的算法,仅仅考虑到人脸图像的全局特征,针对LPP算法的局限性,提出了一种加权分块局部保留投影的人脸识别方法。首选把所有人脸图像训练样本分割成相等且不重叠的子图像,并将位置相同的子图像聚集起来,然后对每个子图像集分别应用LPP算法,接着结合信息熵权函数计算各子图像集相应的权重。实验证明该算法的识别率相对于传统的LPP算法具有一定的提高,能够较好地克服光照、表情和姿态变化的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号