学习Python爬虫就要掌握以下三部分:
爬虫的工作原理和设计思想
反爬虫机制
分布式集群爬虫应用
想要掌握以上内容就需要学习以下内容:
1. Request模块、BeautifulSoup
2. PhantomJS模块学习
3. Selenium模块
4. 基于requests实现登录:抽屉
5. GitHub、知乎、博客园
6. 爬取拉钩职位信息
7. 开发Web版微信
8. 高性能IO性能相关模块
9. 自定义开发一个异步非阻塞模块
10. asyncio、aiohttp、grequests
11. Twisted、验证码图像识别
12. Scrqpy框架以及源码刨析
13. 框架组件介绍(engine、spider、downloader、scheduler、pipeline)分布式爬虫实战
首先需要学习Python基础,然后学习网络编程,http协议,前端编程。因为数据是从网页中提取,或者是从接口里面直接获取的,以上技能缺一不可。除此之外还得学习解析库,因为你爬取的网页,有些数据是你想要的,但大多数都不是你想要的。最后就是学习数据库,例如mysql,mongodb等... 建议你去听下lao男孩的课程!
持之以恒,可以自己看书,也可以看视频,如果你看书的话,最好看那种简单易携带的,最好是一边上手一边看书,哪里不懂看哪里。
如果你要视频的话,我这里有很多,你可以点击链接
网页链接
回复“python”免费下载。