基于机器学习的糖尿病风险预测模型与实证研究 |
| |
引用本文: | 赵绪悦,纪江明,王厉行.基于机器学习的糖尿病风险预测模型与实证研究[J].湖州师范学院学报,2022(8):55-62. |
| |
作者姓名: | 赵绪悦 纪江明 王厉行 |
| |
作者单位: | 1. 湖州师范学院信息工程学院;2. 湖州师范学院经济管理学院 |
| |
摘 要: | 从机器学习算法出发,采用十折交叉验证和Grid Search网格搜索方法优化超参数.以Pima印第安人糖尿病数据集为研究对象,运用描述性统计、四分差法、特征重要性分析等方法处理数据集,分别使用逻辑回归、支持向量机(SVM)、Boosting、Bagging、Stacking集成学习方法构建糖尿病风险预测模型,并比较各个集成模型的评估指标.为验证模型在其他数据集上的有效性,运用浙江某医院体检数据集进行验证,从而评价各模型的预测效果.结果发现:Stacking集成模型在Pima印第安人数据集上的预测准确率最高,达83.74%,精确度也最好,达80.0%;Stacking集成模型同样适用于体检数据集,其准确率最高,达93.83%.可见,基于Stacking集成学习方法构建的预测模型的准确度更高、适用性较好.
|
关 键 词: | 机器学习 糖尿病 集成学习 风险预测模型 |
|
|