你的位置: 首页 > 公开课首页 > 语言 > 课程详情
课程介绍 评价详情(0)
时间安排
课程内容
第一天
l 网络爬虫技术入门
n “爬虫”的概念和本质
n 网络爬虫的实用价值
n 网络爬虫的法律约束
n 为什么选择Python做爬虫开发语言
n Python的包管理工具-pip
n 编写第一个网络爬虫
Ø robots.txt介绍
Ø 爬虫第一步:网页下载
Ø 【案例】网站地图爬虫
Ø 【案例】遍历Id爬虫
Ø 【案例】链接爬虫
l 网页内容(数据)的抓取
n 网页的分析
Ø FireBug Lite等工具
n 爬虫技术三种网页内容抓取方式
Ø 正则表达式
Ø Beautiful Soup
Ø Lxml:CSS选择器抓取
Ø 【讨论】三种抓取方式的优劣对比
Ø 【案例】为第一个爬虫增加抓取功能
l 爬虫下载缓存
n 爬虫添加下载缓存的必要性
n 为链接爬虫添加缓存支持
n 缓存文件
Ø 文件系统限制
Ø 文件缓存实现(包含异常处理)
Ø 文件缓存测试的执行
Ø 使用zlib压缩缓存
Ø 清理过期文件缓存数据
Ø 文件缓存缓存缺陷
Ø 【案例】文件缓存实现
n 数据库缓存
Ø 爬虫开发缓存选择NoSQL的理由
Ø 典型的NoSQL-MongoDB技术概述
Ø MongoDB缓存实现
Ø MongoDB数据压缩
Ø MongoDB缓存测试
Ø 【案例】MongoDB缓存实现
第二天
l 100万个网页以上规模的网站数据抓取-并行爬虫
n 常规串行爬虫的特性
n 爬虫线程和进程的工作原理
n 多线程爬虫
n 多进程爬虫
n 性能分析
n 【案例】多线程爬虫
n 【案例】多进程爬虫
l JavaScript动态页面的爬虫技术
n 动态页面示例
n 对动态网页执行逆向工程
Ø 分析页面加载数据的过程
Ø python的Ajax调用
Ø 边界优化
Ø 【案例】动态网页的逆向
n 使用渲染引擎处理动态页面
Ø 渲染引擎处理原理
Ø 包含WebKit的Python库:PyQt
Ø 包含WebKit的Python库:PySide
Ø 使用WebKit编程执行动态的JavaScript
Ø 使用WebKit与网站交互-自定义渲染规则
Ø 浏览器自动化API接口提供者-Selenium
Ø 【案例】PySide执行动态的JavaScript
Ø 【案例】Selenium运行动态JavaScript
l 表单交互
n 登陆表单
Ø GET/POST
Ø URLencode/URLdecode
Ø header & cookie
Ø 如何突破使用cookie阻挡的网站
n 网络机器人实现(网站内容自动更新功能)
n 高级Mechanize模块实现自动化表单处理
l 【案例】表单登陆
第三天
l CAPTCHA(登陆验证码)处理
n 注册账号的关键控制环节
Ø 加载验证码图像
n 常规验证码图像处理-OCR(光学字符识别)
Ø Tesseract OCR引擎
Ø 阀值化
Ø OCR优化
Ø 【案例】OCR验证码图像处理
n 非常规的复杂验证码图像处理-9KW
Ø 复杂验证码图像处理服务概述
Ø 9KW入门
Ø 集成注册功能
Ø 【案例】调用9KW服务进行验证码图像处理
l 网络爬虫框架Scrapy(快速编写spider爬虫)
n Scrapy安装
n Scrapy框架的开发与使用
Ø Scrapy框架爬虫spider介绍
Ø 爬虫项目默认结构生成-startproject
Ø 爬取内容模型设定
Ø spider爬虫创建
Ø 如何使用shell 命令抓取
Ø spider爬虫的中断与恢复
Ø 【案例】使用Scrapy框架快速编写爬虫
n 基于Scrapy开发的可视化爬虫工具-Portia
Ø virtualenv 环境下的-Portia安装过程
Ø Portia的标注
Ø 优化Portia生成的爬虫
Ø 【案例】使用Portia生成可视化爬虫
n 使用Scrapely实现自动化抓取
l 爬虫封禁的突破
n robots.txt剖析
n user agent
n referrer
n 爬虫封禁的突破技巧
l 【爬虫实战一】Google搜索引擎
l 【爬虫实战二】宝马官网-抓取信息
第四天
l 爬行数据整理和可视化数据分析
n CSV显示
n Matplotlib的图形化显示
Ø iPython和pylad
Ø 图型的初级绘制
° 默认配置的详解
° 线条的控制
° 图片边界
° 记号
° 移动脊柱
° 图例添加
° 注释特殊点
Ø 图像子图坐标轴和记号
Ø 其他类型的图
Ø 散点图/条形图/等高线图
Ø 灰度图/饼状图/量场图
Ø 网格/多重网格
Ø 极轴图/3D图
n JS可视化图表highcharts.js
Ø 曲线图
Ø 区域图
Ø 饼图
Ø 散点图
Ø 气泡图
Ø 动态图表
Ø 组合图表
Ø 3D图
Ø 测量图
Ø 热点图
Ø 树状图
l 【爬虫数据可视化显示】某商城商品销售价格信息
总结
l 复习本课程所有的内容
l 总结 讨论和完整案例展
本课程名称: python爬虫和数据分析
查看更多:语言公开课
我要找内训供应商
授课内容与课纲相符0低0%
讲师授课水平0低0%
服务态度0低0%
课程介绍 评价详情(0)
培训受众:
2. 需要了解 需要了解 爬虫 特点,技术难的设计人员或架构师;
3. 即将要从事 爬虫相关技术 管理的项目人员;
课程收益:
本课程内容丰富,讲解由浅入深,并始终以一线开发经验贯穿始终。通过本课程的学习,可使得学员对Python爬虫开发有一个很好的掌握和了解。
培训颁发证书:
课程大纲
时间安排
课程内容
第一天
l 网络爬虫技术入门
n “爬虫”的概念和本质
n 网络爬虫的实用价值
n 网络爬虫的法律约束
n 为什么选择Python做爬虫开发语言
n Python的包管理工具-pip
n 编写第一个网络爬虫
Ø robots.txt介绍
Ø 爬虫第一步:网页下载
Ø 【案例】网站地图爬虫
Ø 【案例】遍历Id爬虫
Ø 【案例】链接爬虫
l 网页内容(数据)的抓取
n 网页的分析
Ø FireBug Lite等工具
n 爬虫技术三种网页内容抓取方式
Ø 正则表达式
Ø Beautiful Soup
Ø Lxml:CSS选择器抓取
Ø 【讨论】三种抓取方式的优劣对比
Ø 【案例】为第一个爬虫增加抓取功能
l 爬虫下载缓存
n 爬虫添加下载缓存的必要性
n 为链接爬虫添加缓存支持
n 缓存文件
Ø 文件系统限制
Ø 文件缓存实现(包含异常处理)
Ø 文件缓存测试的执行
Ø 使用zlib压缩缓存
Ø 清理过期文件缓存数据
Ø 文件缓存缓存缺陷
Ø 【案例】文件缓存实现
n 数据库缓存
Ø 爬虫开发缓存选择NoSQL的理由
Ø 典型的NoSQL-MongoDB技术概述
Ø MongoDB缓存实现
Ø MongoDB数据压缩
Ø MongoDB缓存测试
Ø 【案例】MongoDB缓存实现
第二天
l 100万个网页以上规模的网站数据抓取-并行爬虫
n 常规串行爬虫的特性
n 爬虫线程和进程的工作原理
n 多线程爬虫
n 多进程爬虫
n 性能分析
n 【案例】多线程爬虫
n 【案例】多进程爬虫
l JavaScript动态页面的爬虫技术
n 动态页面示例
n 对动态网页执行逆向工程
Ø 分析页面加载数据的过程
Ø python的Ajax调用
Ø 边界优化
Ø 【案例】动态网页的逆向
n 使用渲染引擎处理动态页面
Ø 渲染引擎处理原理
Ø 包含WebKit的Python库:PyQt
Ø 包含WebKit的Python库:PySide
Ø 使用WebKit编程执行动态的JavaScript
Ø 使用WebKit与网站交互-自定义渲染规则
Ø 浏览器自动化API接口提供者-Selenium
Ø 【案例】PySide执行动态的JavaScript
Ø 【案例】Selenium运行动态JavaScript
l 表单交互
n 登陆表单
Ø GET/POST
Ø URLencode/URLdecode
Ø header & cookie
Ø 如何突破使用cookie阻挡的网站
n 网络机器人实现(网站内容自动更新功能)
n 高级Mechanize模块实现自动化表单处理
l 【案例】表单登陆
第三天
l CAPTCHA(登陆验证码)处理
n 注册账号的关键控制环节
Ø 加载验证码图像
n 常规验证码图像处理-OCR(光学字符识别)
Ø Tesseract OCR引擎
Ø 阀值化
Ø OCR优化
Ø 【案例】OCR验证码图像处理
n 非常规的复杂验证码图像处理-9KW
Ø 复杂验证码图像处理服务概述
Ø 9KW入门
Ø 集成注册功能
Ø 【案例】调用9KW服务进行验证码图像处理
l 网络爬虫框架Scrapy(快速编写spider爬虫)
n Scrapy安装
n Scrapy框架的开发与使用
Ø Scrapy框架爬虫spider介绍
Ø 爬虫项目默认结构生成-startproject
Ø 爬取内容模型设定
Ø spider爬虫创建
Ø 如何使用shell 命令抓取
Ø spider爬虫的中断与恢复
Ø 【案例】使用Scrapy框架快速编写爬虫
n 基于Scrapy开发的可视化爬虫工具-Portia
Ø virtualenv 环境下的-Portia安装过程
Ø Portia的标注
Ø 优化Portia生成的爬虫
Ø 【案例】使用Portia生成可视化爬虫
n 使用Scrapely实现自动化抓取
l 爬虫封禁的突破
n robots.txt剖析
n user agent
n referrer
n 爬虫封禁的突破技巧
l 【爬虫实战一】Google搜索引擎
l 【爬虫实战二】宝马官网-抓取信息
第四天
l 爬行数据整理和可视化数据分析
n CSV显示
n Matplotlib的图形化显示
Ø iPython和pylad
Ø 图型的初级绘制
° 默认配置的详解
° 线条的控制
° 图片边界
° 记号
° 移动脊柱
° 图例添加
° 注释特殊点
Ø 图像子图坐标轴和记号
Ø 其他类型的图
Ø 散点图/条形图/等高线图
Ø 灰度图/饼状图/量场图
Ø 网格/多重网格
Ø 极轴图/3D图
n JS可视化图表highcharts.js
Ø 曲线图
Ø 区域图
Ø 饼图
Ø 散点图
Ø 气泡图
Ø 动态图表
Ø 组合图表
Ø 3D图
Ø 测量图
Ø 热点图
Ø 树状图
l 【爬虫数据可视化显示】某商城商品销售价格信息
总结
l 复习本课程所有的内容
l 总结 讨论和完整案例展
培训师介绍
最早的web App、PhoneGap、Node.js研究者,阿里云计算研究者,为波导手机、中国银行、中南空管局等诸多企、事业制作移动端项目。iOS技术顾问,移动开发专家。精通iOS、Android和 Windows Phone、PHP、Python、微信及 Html5等移动开发技术。多平台架构设计协同开发倡导者,曾先后主持开发大型网络游戏iOS和Android客户端开发、海关移动查巡系统、中国银行移动文档查阅系统等。在 App Store发布多款应用软件,擅长移动平台的应用和移动架构的搭建,Python开发与数据分析,因长期研究手机和互联网前端开发技术,所以在互联网的安全、手机端安全方面也积累了不少实战经验,现为中睿金牌讲师,首席企业移动开发顾问,移动开发、移动安全方向培训满分讲师。
工作经历
12年
授课风格
教师讲课精于教学的技巧,讲解、分析、论证时,思路清晰;合理运用教学方法,对知识重点、难点的有准确把握。提问、讨论、练习时间,针对学生的实际情况而控制进度,对于学生掌握知识而言,是一种追求高效率的教学风格,是许多教师课堂教学所实施和追求的一种境界。
主讲课程
《Android高级应用开发》
《iPhone/iPad移动应用高级开发》
《微信小程序开发实战培训》
《HTML5高级开发与应用实战》
《微信公众平台接口开发》
《移动APP架构建设》
《Python爬虫与数据分析》
《Linux嵌入式开发》
《AngularJS4web开发高阶》
部分项目经历
XX港企工程管理系统
客户:XX香港知名地产公司。
岗位:移动APP C/S架构设计师,移动开发工程师.负责该项目的C/S架构设计,以及android,iOS 客户端 具体的开发。
涉及主要技术:服务器端 SSM,客户端用iOS/Android原生开发。
移动互联平台
客户:中国银行
岗位:移动APP C/S 架构设计师,研发技术服务顾问。负责该项目的C/S架构设计,负责项目难点实施。技术团队培训。
涉及主要技术:服务器端 SSM,客户端用Cordova跨平台移动开发技术。
部分成功客户
金融行业
中国建设银行、中国农业银行、广东工商银行、招商银行、瑞士银行、华商银行…
电信通讯行业
省电信、广东移动、深圳移动、深圳联通、中山移动、佛山移动、东莞联通…
政府事业单位
广东地税、深圳地税、深圳国税、深圳国土规划局、广州铁路…
企业
中广核工程集团公司、南方航空、兄弟科技、平安、深圳机场、友邦保险、安利集团、格力集团、步步高集团、蛇口集装箱…
本课程名称: python爬虫和数据分析
查看更多:语言公开课