以下为《4月9日-4月11日 全国高校Python数据采集及挖掘高级研修班(XX) (2) (自动保存的)》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
全国高校Python数据采集与挖掘课程
高级研修班
通 知
各高校教务处、各相关院系负责人:
依据《教育部高等学校教学指导委员会章程》规定,教育部高等学校教学指导委员会的任务之一是:组织师资培训,沟通信息,交流教学建设和教学改革经验,宣传推广优秀教学成果,为高等学校的教学建设和教学改革做好服务工作。为此,教育部高等学校计算机类专业教学指导委员会和全国高等学校计算机教育研究会决定举办本系列课程高级研修班。本系列课程高级研修班是在新工科建设背景下启动的,面向全国高校相关院系专业负责人与教师,专注于人才培养、学科建设、课程体系与课程内容建设、授课艺术、产教融合、科研与教学、教学经验分享等。
提高程序设计课程教学质量,解决如何“教”的问题,师资是关键,而组织教师培训是提高师资水平的最佳途径之一。通过培训,可以使教师了解程序设计课程教学的最新动态,分享程序设计课程优秀的教学成果,提升高校教师特别是中青年教师的业务水平和教学能力,从而进一步促进程序设计课程的教学发展。同时,培训可以为教师提供了一个沟通信息的平台,交流课程建设和教学改革的经验,交流产、学、研合作的可能等。
在人工智能时代下,机器学习、深度学习、大数据分析与处理、云计算等新技术的提出极大地促进了Python语言的发展,2017年IEEE Spectrum 发布的编程语言交互式排行榜上,Python独占榜首。Python以面向对象、容易学习、跨平台以及由此产生的低维护成本,深受Python爱好者喜欢并获得好评。这次培训班的内容既有Python课程的深度介绍,也有以Python为工具进行比较前沿的数据采集、处理和挖掘的开发。特邀请各高校相关院系选派教学主管领导、课程负责人和骨干教师参加本次研修班。
一、课程目标
内容主要围绕互联网大数据的采集、处理与挖掘方法,理论与实践紧密结合,让学员掌握相关的技术、模型和Python实现方法。采集方面侧重于各类型页面的采集、爬虫采集的合规性与健壮性。在挖掘方面,主要围绕非结构化的文本信息,侧重于词汇切分、新词发现、分类器和主题模型原理与实现,同时介绍相关研究的主要进展。
二、课程内容及时间安排
第一天 2021年4月10日(周六)
9:00-11:00
互联网大数据采集与挖掘的技术体系,包括知识体系、课程安排等。
静态页面内容采集技术与Python实现,包括页面编码、请求与响应、链接分析与提取等。
11:00-12:00
上机案例1:针对新闻信息采集的实践。
14:30-16:30
爬虫的健壮性技术,包括爬虫的页面遍历策略、异常处理机制等。
网页采集的动态性分析方法与实现,包括Cookie、Session、参数化URL、动态URL等。
16:30-17:30
上机案例2:针对财经信息、评论信息等典型Web应用的采集实践。
17:30-18:00
交流与讨论
第二天 2021年4月11日(周日)
9:00-10:30
爬虫的合规性技术与Python实现,包括规范、爬虫对抗及其影响的思考和技术研究进展等。
页面内容提取技术原理与实现,包括DOM树、XPath、CSS、效率分析等。
采集内容的存储,包括Pandas的运用、文件读写等操作。
10:30-11:30
上机案例3:针对财经信息的采集、提取、存储技术的实践。
11:30-12:00
交流与讨论
14:00-15:30
文本内容的处理技术,包括词汇切分算法、新词发现算法、命名实体发现等。
文本内容的数学表示方法与基于Skl 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 及纳税人识别号
签收快递地址
**_*经济开发区汤王大道2266号
***@qq.com
手机
***
住宿
□不住宿 □合住 ?单住标准间 □单住大床房
预计报到日期及时间:?4月9日 □4月10日
□上午 ?下午 □晚上 □深夜
住宿日期
?9日 □10日 □11日
其他时间请注明
注:请各位与会者到通知后,于2021年4月5日前,通过电子邮件的方式回复至会务组联系人,以收到会务组确认邮件为准,如无回复请务必电话确认。
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《4月9日-4月11日 全国高校Python数据采集及挖掘高级研修班(XX) (2) (自动保存的)》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。