以下为《学生校园消费行为分析项目报告》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
学生校园消费行为分析
目录
1 背景介绍及项目目标 3
1.1 项目背景 3
1.2 项目目标 3
2 数据说明 3
3 数据预处理 4
3.1 对表data1.csv进行数据预处理 4
3.1.1 异常值处理 4
3.1.2 去重和缺失值检查 4
3.2 对表data2.csv进行数据预处理 4
3.2.1 缺失值和重复值检验 4
3.2.2 数据类型转换 5
3.2.3 异常值处理 5
3.3 关联表 5
4 食堂就餐行为分析 5
4.1 分析各食堂就餐人次占比及早中晚餐就餐地点 5
4.2 分析工作日和非工作日就餐时间及就餐峰值 8
4.3 食堂运营建议 9
5 学生消费行为分析 10
5.1 统计本月人均刷卡频次和人均消费 10
5.2 分析不同专业间不同性别学生消费特点 10
5.2.1 各专业男女生平均消费记录 10
5.2.2 特定专业男女生消费统计 12
5.3 聚类模型 14
背景介绍及项目目标
项目背景
校园一卡通是集身份认证、金融消费、数据共享等多项功能于一体的信息集成系统。在为师生提供优质、高效信息化服务的同时,系统自身也积累了大量的历史记录,其中蕴含着学生的消费行为以及学校食堂等各部门的运行状况等信息。很多高校基于校园一卡通系统进行“智慧校园”的建设,例如暖心饭卡补助。
项目目标
本项目利用某高校校园一卡通系统一个月的运行数据,使用数据分析和建模方法,挖掘数据中所蕴含的信息,分析学生在校园内的学习生活行为,为改进学校服务并为相关部门的决策提供信息支持。
数据说明
该项目使用某学校2019年4月1日至4月30日的一卡通的数据,data1是学生个人信息数据,共有4341条;data2是消费记录数据,共有519367条。
数据预处理
对表data1.csv进行数据预处理
异常值处理
对该表按卡号CardNo升序排列,发现索引为4340和4341的两列CardNo是异常值,根据其它学号的归路,将其分别改为164340和164341。
去重和缺失值检查
对该表进行缺失值检查和重复值检查,发现AccessCardNo这一列有大量重复值,由于在该表中已经有CardNo这一数据可以代表学生身份,且这项数值已经经过异常值处理,因此选择直接删除AcceCardNo这一列。对CardNo进行重复值处理,并将处理后的数据保存为task1_X1.csv。
对表data2.csv进行数据预处理
缺失值和重复值检验
对data2的数据进行缺失值检验,发现TermSerNo和conOperNo这两项数据有大量缺失值,且为无关列,因此选择删除这两列的数据。
观察到CardNo中有大量重复值,但由于该表是记录学生消费行为的,一个学生可以重复刷卡多次,因此不做处理。
数据类型转换
将Date改为时间序列,并把星期、天数、时、分、秒分别提取出来。
异常值处理
统计消费地点,发现有食堂、小卖部、教学楼、宿管办等地,而食堂是不会在夜间营业的,因此将消费地点为食堂的,0-6点的数据作为异常值删除。
关联表
将经过数据处理的表task1_X1.csv和表task1_X2.csv按照卡号CardNo合并成一张表,保存为task1_X3.csv。
食堂就餐行为分析
分析各食堂就餐人次占比及早中晚餐就餐地点
使用经过数据处理的表task1_X2.csv,筛选出消费地点为食堂的数据。按照时间划分早、中、晚餐,此处选择上午6-11点为早餐时间,11-16点为午餐时间,16-24为晚餐时间。根据划分在表后新增一列Meal,记录早中晚餐类型。
观察数据发现食堂消费记录中有大量数值为0.3的数据,推测可能是食堂采取饭菜分开刷卡造成的,由于要分析就餐人次,因此按照校园卡号CardNo、刷卡日期day、刷卡时间hour进行去重,即假定在同一天内同一个小时的消费记录为一顿饭,这样可以避免上述饭菜分开刷卡以及一顿饭种类多样的情况。
统计各食堂的就餐人次数据如图4-1。
/
图4-1 各食堂就餐人次统计
分别按早中晚餐提取消费记录,并统计各食堂就餐人次占比饼图,得到早餐的各食堂消费占比见图4-2,午餐的各食堂消费占比见图4-3,晚餐的各食堂消费占比如图4-4。可见早餐有超过一半的学生选择在第二食堂就餐,除第二食堂外,第五食堂就餐人数也较多,占32.04%,第一食堂占14.89%。午餐各食堂的消费人数较为平均,第四食堂占比稍高,为26.77%,第五食堂占比24.11%,第二食堂、第三食堂占比分别为20.79%和18.68%,第一食堂占比较少,仅有8%。晚餐各食堂分布也比较均匀,第四食堂占比稍高,为26.90%,第二食堂次之,为25.45%,第五食堂占比20.90%,第一食堂占比最少,为10.37%。
教师食堂是仅供老师吃饭的食堂,从饼图中可以看出教师中午在校吃饭的人数最多,而晚餐没有教师在学校食堂吃。
/
图4-2 早餐各食堂消费占比
/
图4-3 午餐各食堂消费占比
/
图4-4 晚餐各食堂消费占比
分析工作日和非工作日就餐时间及就餐峰值
这部分内容是划分工作日和非工作日的就餐时间,因此先将该月日期做出工作日和非工作日的划分。而在实际生活中,工作日和非工作日不单是由星期划分的,还会出现节假日调休的情况,查日历可知2019年4月中,4.5是清明节,为国家法定节假日,因此该月的非工作日为5、6、7、13、14、20、21、27这几天,其余日期为工作日。分别将各食堂工作日和非工作日的消费记录提取出来,绘制各食堂工作日和非工作日的就餐时间分布折线图,如图4-5所示,其中计算平均就餐人次时,依据实际情况工作日取22天,非工作日8天。
/
图4-5 各食堂工作日和非工作日就餐时间分布折线图
食堂运营建议
观察4.1得出的饼图和4.2得出的折线图,得到如下信息。
早餐的就餐地点学生偏向二食堂,因此二食堂可以在这一时段多准备一些早餐,以保证供应。第五食堂、第一食堂的早餐就餐人数也较多,这三个食堂工作日时早餐就餐高峰期为7-8点这一时段,应在这段时间内保证充足的人手和食物供应,而在非工作日,所有食堂吃早餐人数大幅减少,且没有明显的峰值,推测是学生们可能都在睡懒觉,因此需要减少食物准备以避免浪费。
午餐的就餐地点在二、三、四、五食堂都有约20%的占比,而一食堂人数稍少。工作日时,一食堂就餐高峰期为12:00-1:00,二食堂就餐高峰期为11:00-12:00,三食堂就餐高峰期为11:00-12:00,四食堂就餐高峰期为11:00-12.30,五食堂就餐高峰期为11:30-12:30,各食堂应在各自的高峰时段内保证充足的供应,但在供应量上,一食堂不需准备太多。非工作日时,一食堂的午餐就餐人数并不会比工作日明显减少,但就餐高峰期往后推迟30分钟左右,因此该食堂需和平时准备一样多的事物。其余几个食堂在午餐就餐高峰期的时间上没有明显变化,但就餐人数较工作日大幅减少,因此应减少食材准备以避免浪费。
晚餐的消费地点也分布较平均,但一食堂人数较少。工作日时,一食堂就餐峰值在6点左右,二食堂、三食堂在5:00-6:00,四食堂在6点左右,五食堂在5:00-6:30,各食堂应在高峰期保证充足的菜品供应。在非工作日,一食堂除在6点左右出现高峰期外,在9点左右又迎来一波小高峰,说明该食堂的夜宵较受欢迎。其余几个食堂在非工作日只是就餐人数减少,其余并无特别,需减少食材准备即可。
食堂就餐人数受地理位置和食堂规模影响很大,这是不可改变的因素,但提升菜品种类和性价比,同样能起到吸引顾客的效果,比如一食堂三餐人流数都较少,应自我反思事物的味道和价格是否足够吸引学生,向其它食堂学习经验,其独有夜宵高峰期,应加大宣传力度,吸引更多同学。
学生消费行为分析
统计本月人均刷卡频次和人均消费
这项工作使用关联后的数据task1_X3.csv,由于统计的是消费记录,因此把Type为“消费”的提取出来进行分析,统计得知共有3204个学生在该月消费,除以总消费金额算得人均消费为285.32元,人均刷卡频次为71.64次。
分析不同专业间不同性别学生消费特点
各专业男女生平均消费记录
分别提取出男女学生的消费记录,并按照专业和性别划分,得不同专业间男生平均消费金额如图5-1,各专业女生平均消费金额如图5-2。
/
/
/
图5-1 各专业男生平均消费金额
/
/
/
图5-2 各专业女生平均消费金额
特定专业男女生消费统计
各专业间消费地点会有明显差别,同一专业的男女学生在消费地点上也有差别,为分析该差别,以产品艺术和连锁经营两个专业为例展开探讨。
统计发现产品艺术专业男女学生人数差距很大,对其进行单独分析,结果如图5-3,发现男生主要在第七教学楼消费,而女生主要在飞凤轩宿管办,可知该栋宿舍楼是女生寝室。
/
图5-3 产品艺术专业男女学生不同地点人均消费对比柱形图
分析连锁经营专业学生消费情况,得到结果如图5-4。
/
图5-4 连锁经营专业男女学生不同地点人均消费对比柱形图
聚类模型
为便于根据校园卡消费记录评估出贫困生,本项目中选用早餐消费总金额、午餐消费总金额、晚餐消费总金额、月就餐次数这四个指标做聚类分析。首先将这四个数据分别提取出来,对其进行均值-方差标准化,得到如图5-5所示的表格。根据该表即可判断出贫困生群体。
/
图5-5 聚类结果表
以上为《学生校园消费行为分析项目报告》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。