以下为《Python数据处理课程设计》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
电子信息与计算机***
课程设计
专业名称:
数据科学与大数据技术
课程名称:
Python数据处理课程设计
课题名称:
Python爬二手车信息分析
学 号:
***0070
学生姓名:
石某某
年级班级:
2020级02班
指导老师:
卢某某(校内老师)、XXX(企业老师)
2022 年 06 月 20日
《 python数据处理 课程设计》任务书
课题名称: Python爬二手车信息分析
二、技术指标及要求:
Pycharm集成开发环境完成课题,并且成功爬取58二手车信息
能够熟练运用Pycharm操作与代码书写,运行报错准确修改
MySQL的熟练运用
指导教师:卢某某
学 生:石某某
电子信息与计算机***
2022 年 06 月 22 日
课程设计报告书评阅页
课题名称:Python爬二手车信息分析
班 级:20级大数据二班
姓 名:石某某
指导教师评语:
考核成绩: 指导教师签名:
2022 年 06 月 xx日
课程设计目的和意义
培养我们学生综合运用所学的专业知识,深入理解相关课程之间的关联,使用规范的软件开发方法和技术进行和技术软件项目的的分析,设计和实施能力。通过调试典型例题或习题积累调试程序的经验。
有助于我们思维逻辑的锻炼,网络爬虫能直接有效的训练我们的创新思维,解决问题的能力。即使一个简单的程序都需要学生有条不理的构想。
有利于培养严谨认真的学习态度,在爬取网站信息过程中,输入代码的时候不够细心一个简单的字母错误都会导致程序报错,在我们反复调试,反复修改的过程,其实也是对我们认真学习的严谨的一个锻炼。
课程设计要求
本次课程设计是对我们进行为期一周的Python实训课的检验,
(1)使用Python语言在Pycharm的集成开发环境完成课题,完成代码输入运行。
(2)熟练操作对网站信息爬取,信息采集,数据清洗与处理。到最后的可视化的分析。整个爬取流程。
(3)在代码运行出现的错误,对一些常见错误的修改,是的代码能够正常运行。
数据爬取与采集
#导入库
import requests
from lxml import etree
import time
import re
import pandas as pd
#初始化空列表
carname_lis,carage_lis, price_lis, mileage_lis = [], [], [], []
for a in range(10):
#爬取网站的网址并且循环爬取前10页的内容
url = "https://doc.001pp.com/fz/audi/{}/#bread".format(a*10
#设置请求头
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 型。
解析内容;得到内容可能是HTML,可以用正则表达式,网页解析库进行解析,可能是Json可能是二进制数据,可以保存或进一步处理。
保存数据;保存形式多样,也可以存为文本 ,也可以保存至数据库,或者是特定格式文件。
在对瓜子二手车数据进行爬取时容易被目标网站拉黑我的ip,。
在设计过程中很多东西都需慢慢的探索,代码报错,例如;没有名称的X模块,未解析引用
‘XX’拼写错误等等。
七、参考文献(按一级标题要求处理)
何某某. Python程序设计入门到实战[M]. 北京. 清华大学出版社 2017
胡某某.Python网络爬虫实战[M]. 北京. 清华大学出版社. 2020
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《Python数据处理课程设计》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。