Python数据处理课程设计

本文由用户“carmelozhang”分享发布 更新时间:2022-07-29 07:44:29 举报文档

以下为《Python数据处理课程设计》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。



电子信息与计算机***

课程设计

专业名称:

数据科学与大数据技术



课程名称:

Python数据处理课程设计



课题名称:

Python爬二手车信息分析



学 号:

***0070



学生姓名:

石某某



年级班级:

2020级02班



指导老师:

卢某某(校内老师)、XXX(企业老师)





2022 年 06 月 20日

《 python数据处理 课程设计》任务书

课题名称: Python爬二手车信息分析

二、技术指标及要求:

Pycharm集成开发环境完成课题,并且成功爬取58二手车信息



能够熟练运用Pycharm操作与代码书写,运行报错准确修改



MySQL的熟练运用







指导教师:卢某某

学 生:石某某

电子信息与计算机***

2022 年 06 月 22 日

课程设计报告书评阅页

课题名称:Python爬二手车信息分析

班 级:20级大数据二班

姓 名:石某某

指导教师评语:

考核成绩: 指导教师签名:

2022 年 06 月 xx日

课程设计目的和意义

培养我们学生综合运用所学的专业知识,深入理解相关课程之间的关联,使用规范的软件开发方法和技术进行和技术软件项目的的分析,设计和实施能力。通过调试典型例题或习题积累调试程序的经验。

有助于我们思维逻辑的锻炼,网络爬虫能直接有效的训练我们的创新思维,解决问题的能力。即使一个简单的程序都需要学生有条不理的构想。

有利于培养严谨认真的学习态度,在爬取网站信息过程中,输入代码的时候不够细心一个简单的字母错误都会导致程序报错,在我们反复调试,反复修改的过程,其实也是对我们认真学习的严谨的一个锻炼。

课程设计要求

本次课程设计是对我们进行为期一周的Python实训课的检验,

(1)使用Python语言在Pycharm的集成开发环境完成课题,完成代码输入运行。

(2)熟练操作对网站信息爬取,信息采集,数据清洗与处理。到最后的可视化的分析。整个爬取流程。

(3)在代码运行出现的错误,对一些常见错误的修改,是的代码能够正常运行。

数据爬取与采集

#导入库

import requests

from lxml import etree

import time

import re

import pandas as pd

#初始化空列表

carname_lis,carage_lis, price_lis, mileage_lis = [], [], [], []

for a in range(10):

#爬取网站的网址并且循环爬取前10页的内容

url = "https://doc.001pp.com/fz/audi/{}/#bread".format(a*10

#设置请求头

headers = {

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 型。

解析内容;得到内容可能是HTML,可以用正则表达式,网页解析库进行解析,可能是Json可能是二进制数据,可以保存或进一步处理。

保存数据;保存形式多样,也可以存为文本 ,也可以保存至数据库,或者是特定格式文件。

在对瓜子二手车数据进行爬取时容易被目标网站拉黑我的ip,。

在设计过程中很多东西都需慢慢的探索,代码报错,例如;没有名称的X模块,未解析引用

‘XX’拼写错误等等。

七、参考文献(按一级标题要求处理)

何某某. Python程序设计入门到实战[M]. 北京. 清华大学出版社 2017

胡某某.Python网络爬虫实战[M]. 北京. 清华大学出版社. 2020

[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《Python数据处理课程设计》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览