爬虫与数据分析实验6-学号-姓名

本文由用户“xiaoyin1989”分享发布 更新时间:2021-12-17 20:38:50 举报文档

以下为《爬虫与数据分析实验6-学号-姓名》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

XX******

《爬虫与数据分析》 实验报告

实验名称:

实验6 Pandas统计分析基础(三)



班 级:



姓 名:



学 号:





实验地点:

7-707

日 期:







一、实验目的:

[实验目的和要求]

进一步熟练Pandas数据分组、聚合统计方法

掌握透视表和交叉表的制作方法

掌握Pandas可视化



二、实验环境:

1、Anaconda、python 3



实验内容和要求:(直接将实验步骤及截图写在题目下面,结果必须截图)

现有Training_LogInfo和Training_Userupdate表,分别表示网络贷款用户登录信息和用户更新信息,通过对编号进行分组聚合,进行组内分析。通过组内分析可以得出每组组内的最早和最晚信息更新时间、最早和最晚登录时间、信息更新次数、登录的次数等信息。按分析完成如下要求:

(1)使用groupby方法对用户信息更新表和登录信息表进行分组,注意分组键的选择 (2)使用agg方法求取分组后的最早和最晚更新及登录时间

(3)使用size方法求取分组后的数据的信息更新次数与登录次数

(4)使用to_datetime方法将两表中表示时间的列的类型转换为时间类型

如 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 rt pandas as pd import numpy as np data1=pd.read_csv('Training_Userupdate.csv') data2=pd.read_csv('Training_LogInfo.csv') grouped1 = data1.groupby(data1['Idx']) grouped2 = data2.groupby(data2['Idx']) #1. df2 = grouped1[['UserupdateInfo2']].agg(['max','min']).head() print("最早 最晚 更新时间为:",df2) #2. dff2 = grouped2[['LogInfo3']].agg(['max','min']).head() print("最早 最晚 更新时间为:",dff2) #3. df3 = grouped1.size().head() print("前5组的登录次数",df3) dff3 = grouped2.size().head() print("前5组的登录次数",dff3)



四、实验总结:(请将疑问、遇到的问题、解决的办法、心得体会等写在此处)



五、教师评语:

马某某





[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《爬虫与数据分析实验6-学号-姓名》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览