首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了解决服务器运行过程中由于性能故障造成服务质量下降的问题,提出一种基于决策树的日志分析方法,以服务器日志文件中记录服务器关键性能指标的数据为研究对象,利用决策树中常用的ID3、C4.5和CART 3种算法预测服务器未来性能指标发展趋势。实验结果表明,在实际运行过程中,C4.5算法对服务器性能指标数据预测的准确率和召回率最好,分别达到了92.23%和95.37%,在3种决策树算法中拥有最高的准确率与召回率,且相比传统开发人员从日志文件中寻找故障的方法,准确率提高了20%左右,因此能够更好地预测服务器系统性能指标发展趋势。通过该方法可提前感知系统运行状况,并及时作出调整,从而有效降低实际生产过程中服务器故障发生概率,提高服务质量。  相似文献   

2.
从机器学习算法出发,采用十折交叉验证和Grid Search网格搜索方法优化超参数.以Pima印第安人糖尿病数据集为研究对象,运用描述性统计、四分差法、特征重要性分析等方法处理数据集,分别使用逻辑回归、支持向量机(SVM)、Boosting、Bagging、Stacking集成学习方法构建糖尿病风险预测模型,并比较各个集成模型的评估指标.为验证模型在其他数据集上的有效性,运用浙江某医院体检数据集进行验证,从而评价各模型的预测效果.结果发现:Stacking集成模型在Pima印第安人数据集上的预测准确率最高,达83.74%,精确度也最好,达80.0%;Stacking集成模型同样适用于体检数据集,其准确率最高,达93.83%.可见,基于Stacking集成学习方法构建的预测模型的准确度更高、适用性较好.  相似文献   

3.
为了改善传统ID3算法在分类属性选择上存在多值偏向性的不足,提出基于PCA的决策树优化算法。在普通基于PCA 的决策树改进算法中,存在数据经降维处理后代表性不强的问题,导致算法需经过多次数据运行后,准确率才能小幅提升。在ID3算法基础上,在分类前两次提取属性特征值,并计算了需要分类的数据量,也即对原始数据进行最重要的属性选择。在子树建立之后,再进行数据的降维合并选择。采用UCI数据库中的3个数据集对改进算法进行验证,结果表明改进算法的平均准确率达到94.6%,相比传统ID3算法与普通PCA决策树优化算法分别提升了1.6%和0.6%。因此,基于PCA的决策树算法能在一定程度上提升结果准确率,具备一定的应用价值。  相似文献   

4.
对于各类TTS(Text to Speech)系统而言,能否准确地预测韵律短语边界对TTS系统的效果有着关键性的影响.目前常使用决策树来做韵律短语边界预测,但这种方法受到了训练数据的均衡性以及决策算法本身无法达到全局最优的制约.为了改善预测效果,在传统的决策树方法之上,将决策树使用的聚类属性与模糊决策相结合,提出通过多属性模糊决策方法来预测英文韵律短语边界.实验表明,使用这种方法后,效果比基于决策树的预测方法的效果有较大提升,F-Score由64. 4%提升到69. 3%,不可接受率也从28. 6%降低到21. 4%.  相似文献   

5.
为提高早期糖尿病患病风险的预测准确性,基于集成学习算法建立糖尿病患病风险预测模型.分别基于集成学习算法随机森林、GBDT和XGBoost建立糖尿病预测模型,并比较以上3种方法与单一分类器支持向量机和BP神经网络的分类预测性能.在UCI数据库的早期糖尿病数据集上进行验证试验,使用准确率、精确率、召回率、F1分数和AUC ...  相似文献   

6.
基于在线学习行为预测学生成绩可以辅助教师动态掌握学情,制定差异化的教学策略,然而在混合课程中仅仅依据在线数据对学生成绩迸行预测难度很大,尚处于探索中.文章选取某高校2018秋季学期和2020春季学期的"高活跃型混合课程"学生在线行为数据,采用增量学习的随机森林算法构建学生成绩预测模型,研究发现:(1)增量学习随机森林算法在混合课程样本最多的数据集中,获得预测结果准确率最高(75.1%);(2)相较于批量学习随机森林算法,增量学习算法在数据样本量较多的数据集中预测结果准确率更高;(3)当样本数量达到一定规模后,预测结果准确率波动减小、稳定性增强.本研究采用增量学习随机森林算法预测混合课程中的学生成绩,不仅取得了较好的预测准确率,而且解决了新增数据后模型的稳定性问题,将有助于模型的迭代优化,提高模型的通用性,以及可持续追踪学生在不同学期的学习行为特征.  相似文献   

7.
为提高肺癌患者存活性预测的准确率,提出一种基于Stacking集成学习的肺癌患者存活性预测模型.先对数据集进行预处理、特征选择、变量转换等,然后以XGBoost(eXtreme Gradient Boosting)、SVM(Support Vector Machine)和LR(Logistic Regression)3种算法为基学习器,以朴素贝叶斯为元学习器构造模型,再运用Grid Search网格搜索方法优化超参数,并利用交叉验证方法对SEER公开的肺癌数据集进行仿真实验.研究结果表明,该模型的预测准确率达85%,比单一模型高10%.该模型在肺癌患者存活性预测上有着更好的准确性和解释性,可以很好地为肺癌患者预后提供决策支持,以弥补经验的不足.  相似文献   

8.
以大数据智能化为切入视角,基于K-means和C4.5决策树算法,构建了融合RPA的财务共享中心运营管理优化模型。结果显示,在绩效评价优化层面,聚类-1下绩效评价频率高且在90%以上,而聚类-2下频率相对较低且在70%~90%之间;在风险管控优化层面,训练数据集的预测准确率高达91.24%,而测试数据集的预测准确率达到74.16%;而在税务管理层面,优化后模型的AUC、CA以及Recall等性能指标均得到显著提高。结合K-means和C4.5决策树大数据智能算法构建的融合RPA的财务共享中心运营管理优化模型,既降低了财务共享中心运营管理成本,又充实了财务运营管理技术体系,继而全面提高了企业财务运营管理质量与水平。  相似文献   

9.
潘磊 《教育技术导刊》2009,19(10):152-155
为了提高电力系统中故障预测效率及便捷性,提出一种基于FP-Growth算法的电力系统故障预测方法,无需先验知识及人工标注,便可从海量历史日志数据中快速提取出故障信息模式,并基于实时日志数据对未来可能发送的系统故障进行预测。该方法首先根据电力系统不同类型的日志特征对原始数据进行预处理,然后基于FP-Growth算法挖掘日志中与故障事件相关的关联规则,并使用关联规则进行故障匹配,从而达到预测效果。算法经过真实电力系统日志数据集测试,结果表明该故障预测方法平均准确率为89.5%,平均召回率为79.8%,且执行效率较高,节省了业务人员50%以上的时间。  相似文献   

10.
为了提高南京某所某型雷达伺服系统故障诊断准确率,考虑到传统故障诊断算法的局限性,提出一种基于 Stacking 集成算法的雷达伺服系统故障诊断方法。针对某所某型雷达伺服系统的历史监测数据,首先采用孤立森林算法识别异常样本|然后基于原始数据构造出新的特征,使用卡方检验进行特征选择,并使用SMOTE 算法解决样本不平衡问题|最后,通过建立一种新颖、准确的基于 XGBoost、随机森林和 BP 神经网络的Stacking 集成模型进行故障诊断。实验结果表明,该方法在测试集上的诊断准确率达到了 96.2%,比传统方法诊断准确率提高了 1.8%,证明该方法能够很好地完成雷达伺服系统故障诊断任务。  相似文献   

11.
一种代价敏感学习方法在电信业流失预测中的应用   总被引:1,自引:0,他引:1  
根据已有的流失预测方法,提出新的流失预测方法解决数据挖掘中的非对称错分代价问题.该方法以传统C4.5决策树算法为基准分类器,融合代价调整方法实现代价敏感学习.相比之下,C4.5决策树算法仅是基于样本错分代价相同假定,建立了一种错分率最低而非总错分代价最低的预测模型.基于某电信企业的客户数据,及流失客户和非流失客户代价非对称的实际,实证研究结果表明,CS-C4.5通过调整流失类和非流失类样本的比例,大大降低了传统分类算法的样本错分总代价.该方法对于提高电信企业的核心竞争力具有重要的现实意义.  相似文献   

12.
为满足车辆检测实时性和准确性需求,将基于C4.5的决策树算法作为AdaBoost算法的弱分类器,产生一种速度快、识别率高的强分类器,称之为AdaBoost DT算法。算法训练多个决策树并将之作为弱分类器,之后通过改进级联架构的AdaBoost算法将若干弱分类器组合成一个强分类器。该算法特点在于:相对于广泛使用的以SVM作为弱分类器的算法,其以决策树作为分类器,速度提高了29%;通过在AdaBoost算法进行强分类器的形成阶段加入再判决函数,准确率提高了14.1%。  相似文献   

13.
数据缺失是临床试验中常见但又不可避免的问题之一。由于医疗设备欠缺或者病患忽略检测白蛋白,可能造成白蛋白指标缺失。随着机器学习的广泛应用,很多研究者将机器学习应用在缺失数据估计上。提出一种基于随机森林与聚类方法结合的算法——双随机森林回归法,并将该算法应用于估计白蛋白缺失值。在准确率和鲁棒性方面,双随机森林回归法相比于最近邻法、决策树与随机森林方法,均有不同程度提高。该算法为缺失值的有效处理提供了一种新思路,可以为其它的缺失值估计研究提供参考。  相似文献   

14.
为提高销售预测准确率,提出一种基于改进 XGBoost 的销售预测方法。首先对销售量影响因素进行特征分析,通过改进灰色关联分析方法对训练数据进行降维处理|然后采用基于 XGBoost 算法的销售预测方法对降维后的特征数据进行监督训练|最后使用训练后的模型对销售情况进行预测评估。实验结果表明,基于灰色关联分析和 XGBoost 模型的销售预测方法正确率达到 95%以上,比传统的经典预测方法提高 35%以上,比 XG?Boost 预测方法提高 19.6%。基于灰色关联分析与 XGBoost 模型的销售预测方法不仅能有效处理海量数据,提高销售预测准确率,还能为制造企业实现产品精准投放提供决策依据。  相似文献   

15.
针对现有的智能交通系统预测方法,基于道路交通的关键参数车流量预测,提出了一种基于深度学习的时间序列交通流预测方法,进一步提升道路交通车流量预测准确率。在对道路交通数据集进行清洗后,使用时间序列和神经网络的结合算法TS-NN 进行车流量预测,实验表明,在城市路段的预测中,TS-NN 相对时间序列模型ARIMA、神经网络模型LSTM 准确率分别提升了1.62%和2.13%?在高速公路数据集上测试上,TS-NN 有更加明显的改进,相对ARIMA、LSTM 分别提升了20.87%和3.53%,在一定程度上,TS-NN 算法确实有助于改进智能交通系统核心算法。  相似文献   

16.
为了提高个人信用评分模型算法预测精准率,受视觉领域数据增广思路启发,提出融合数据增广技术与机器学习算法的个人信用评分模型。该模型首先对原始个人信用数据进行数据增广处理,然后基于机器学习分类算法训练一个二分类个人信用评分模型,最后基于公开个人信用数据集,分别建立未经过数据增广和经过数据增广处理后的个人信用评分模型。对比准确率、精确率、召回率、F1 得分、AUC 值和 ROC 曲线等 6 个性能评价指标,结果显示,相较于仅基于机器学习算法的个人信用评分模型,融合了数据增广技术与机器学习算法的个人信用评分模型使得分类性能得到了一定提升,分类准确率平均高出 5%。  相似文献   

17.
为准确、快速、高效地预测电网短期负荷,提出改进的粒子群算法(DPSO),并与BP算法相结合,形成改进的粒子群—BP(DPSO-BP)神经网络算法,用此算法训练神经网络,实现神经网络参数优化,得到基于DPSO-BP算法的神经网络模型.算例分析表明,与传统BP神经网络法和PSO-BP神经网络方法相比,该方法改善BP神经网络的泛化能力,预测精度高,收敛速度快,对电力系统短期负荷具有良好的预测能力  相似文献   

18.
为了提升电信行业收入预测问题准确率,建立基于循环神经网络和长短时记忆网络相结合的收入预测模型。首先对数据作预处理,然后建立卷积层进行核心预测算法优化,再通过训练寻找最优参数,并将其应用于电信运营商收入预测。实验结果表明,该模型可以预测出未来一个月或者几个月的收入增减变化趋势,预测准确率比传统方法提高20%,算法收敛性也提高约15%。该模型预测结果对于电信行业制定营销方案具有较好指导作用。  相似文献   

19.
为了将轻微型肝性脑病(MHE)患者从正常人中区分出来,首先使用独立分量分析(ICA)从静息态f M RI中提取默认网络(DM N),然后使用基于图像模型的多元分析方法(GAM M A),该算法为基于像素水平贝叶斯方法,用来探索默认网络中的功能整合异常现象和临床参数之间的关系.在没有先验知识的前提下,使用5种机器学习的方法(支持向量机,分类回归树,逻辑回归,贝叶斯网络及C4.5)来进行分类.研究发现DMN中功能整合出现异常,并对MHE有很高的预测能力,准确率达到98%.因此,认为基于GAMMA提取的DMN功能整合异常可作为一个简单、客观的神经影像学标志物来区分MHE,并可成为现有MHE诊断方法的有力补充.  相似文献   

20.
吴建军  陶汉卿 《广西教育》2012,(31):190-192
以地铁车站客流监测数据为分析基础,给出基于Bayes理论的地铁车站客流数据曲线自适应特征提取流程和方法,通过特征指标的提取和优选,选择4个特征指标组成地铁车站客流预测模型的特征输入向量。在提出的基于最小二乘支持向量机的地铁车站客流预测算法中,采用修剪算法,通过实例分析证明:基于最小二乘支持向量机的地铁车站客流预测算法具有较强的自学习能力和较高的预测准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号