以下为《项目3指导手册--糖尿病数据集预测》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
实验指导书
(2022-2023第一学期)
课程名称 数据挖掘课程设计
课程编号 03D1011
课程性质 专业基础课
教学时数 16学时
教学对象 大数据管理与应用
授课教师 宋某某
晋中***经济与***
2022年9月
实验项目
序号
项目名称
1
使用RFM模型进行客户价值管理
2
使用聚类模型进行客户分群
3
使用分类模型进行糖尿病早期遗传风险预测
4
使用回归模型进行房屋租赁价格预测
项目三:使用分类模型进行糖尿病患者病情预测
实验课时与类型
4学时,综合性
实验设备与软件
计算机、Jupyter Notebook 6.0及以上
实验目的
1、了解分类算法各种模型的应用场景和建模步骤。
2、掌握线性回归模型的建模步骤。
3、掌握使用Python完成各种分类模型的构建过程。
4、掌握使用Python完成线性回归模型的构建过程。
5、掌握模型构建之前的数据预处理过程。
6、选择合适的指标对模型分类结果进行评价。
7、选择合适的指标对回归模型结果进行评价。
四、实验内容和步骤
(一)实验内容
1、数据预处理和数据可视化
2、分类算法模型的构建和应用
3、分类模型结果评估
4、线性回归模型的构建和应用
5、线性回归模型结果评估
(二)实验步骤
第一部分 分类模型及应用
皮马印第安人糖尿病数据集涉及基于给定的医疗措施预测皮马印第安人5年内糖尿病的发病情况。数据集共有768组观测值,每组观测值有8个输入变量和1个输出变量。变量名称及含义如下所示:
Pergnancies:怀孕次数
Glucose:血糖浓度
BloodPressure:舒张压(毫米汞柱)
SkinThickness:肱三头肌皮肤褶皱厚度(毫米)
Insulin:两个小时血清胰岛素(μU/毫升)
BMI:身体质量指数
Diabets Pedigree Function:疾病血统指数
Age:年龄
Outcome:2表示不患病,1表示患病
其中Outcome为目标变量。
此次数据挖掘任务为建立分类模型以准确预测数据集中的患者是否患有糖尿病。
项目具体工作为根据提供的数据集进行数据清洗和数据探索,根据数据探索结果确定模型的输入属性,构建分类模型完成结果预测,并根据预测结果进行模型输入数据和参数调整,以提升模型准确率。
项目已提前将数据集进行划分,将768组观测值随机抽取20%(即154条)作为测试数据,另外614组观测值作为训练集和验证集使用。
项目流程为:下载项目数据集(614条)作为模型训练和验证数据,进行模型构建和调整,完成模型后获取测试数据集(154条)进行模型评分,此结果即为项目模型分数。
一、分类模型选择
项目任务为二分类问题,可供选择的分类模型包括决策树模型、贝叶斯模型、支持向量机模型、感知器模型和逻辑回归模型等,效果更好的模型还包括常见的加强学习模型如随机森林和XGboost模型等。
本项目模型自选。
二、数据预处理和数据理解
此步骤首先进行数据质量分析和数据预处理,了解数据基本情况和各属性取值范围,确定数据的准确性、完整性和一致性,然后基于数据质量进行数据清洗,包括进行缺失值填充、噪声点光滑、异常值处理和不一致性处理等。
完成预处理过程后对数据进行探索分析,包括了解数据的分布特征、统计量 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 案例较多,可参考如下网站进行。也可自行参考其他网站。
https://doc.001pp.com/p/On1vqG57Xy/
第一部分 线性回归模型及应用
本部分数据集为sklearn库中的diabetes数据集,导入数据集的语法如下:
/
项目任务为基于442条数据进行数据预处理和拆分,建立线性回归模型,对属性target进行预测,模型评分越高越好。
基本处理过程同第一部分,此处略去。
本部分网络案例较多,可参考如下网站进行。也可自行参考其他网站。
https://blog.csdn.net/Superman980527/article/details/***3
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《项目3指导手册--糖尿病数据集预测》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。