本文共 1939 字,大约阅读时间需要 6 分钟。
第1章 Python与网络爬虫
1.1 Python语言1.1.1 什么是Python1.1.2 Python的应用现状1.2 安装与开发环境配置1.2.1 Windows安装1.2.2 Ubuntu和Mac OS安装1.2.3 PyCharm使用1.2.4 Jupyter Notebook1.3 Python基本语法1.3.1 HelloWorld与数据类型1.3.2 逻辑语句1.3.3 函数与类1.3.4 从零到一1.4 互联网、HTTP与HTML1.4.1 互联网与HTTP1.4.2 HTML1.5 Hello, Spider!1.5.1 第一个爬虫程序1.5.2 爬虫思考1.6 调研网站1.6.1 robots.txt与Sitemap1.6.2 查看网站技术1.6.3 查看网站所有者信息1.6.4 使用开发者工具1.7 本章小结
第2章 数据采集
2.1 从抓取开始2.2 正则表达式2.2.1 正则表达式初见2.2.2 正则表达式使用2.3 BeautifulSoup2.3.1 安装与上手2.3.2 基本使用2.4 XPath与lxml2.4.1 XPath2.4.2 lxml与XPath2.5 遍历页面2.5.1 抓取下一个页面2.5.2 完成爬虫2.6 使用API2.6.1 API简介2.6.2 API使用示例2.7 本章小结
第3章 文件与数据存储
3.1 文件读写3.1.1 基本操作3.1.2 序列化3.2 字符串3.3 PIL与Pillow3.3.1 PIL简介3.3.2 OpenCV简介3.4 CSV文件3.4.1 CSV简介3.4.2 读写操作3.5 数据库使用3.5.1 MySQL3.5.2 SQLite3.5.3 SQLAlchemy3.5.4 Redis3.6 其他类型文档3.7 本章小结
第4章 JavaScript与动态内容
4.1 JavaScript与AJAX4.1.1 JavaScript语言4.1.2 AJAX4.2 抓取AJAX数据4.2.1 数据分析4.2.2 数据提取4.3 抓取动态内容4.3.1 动态渲染4.3.2 Selenium使用4.4 本章小结
第5章 表单与模拟登录
5.1 表单5.1.1 表单与POST5.1.2 POST发送数据5.2 Cookie5.2.1 Cookie定义5.2.2 Python中使用5.3 模拟登录5.3.1 分析登录流程5.3.2 Cookie模拟5.4 验证码5.4.1 图片验证码5.4.2 滑动验证5.5 本章小结
第6章 数据处理与科学计算
6.1 文本分析6.1.1 文本分析定义6.1.2 jieba与SnowNLP6.1.3 NLTK6.1.4 文本分类与聚类6.2 数据处理与科学计算6.2.1 MATLAB到Python6.2.2 NumPy6.2.3 Pandas6.2.4 Matplotlib6.2.5 SciPy与SymPy6.3 本章小结
第7章 更灵活的爬虫
7.1 更灵活的爬虫实例7.1.1 用Selenium抓取微信信息7.1.2 微信API工具7.2 更多样式爬虫7.2.1 BeautifulSoup和XPath外的选择7.2.2 在线爬虫应用平台7.2.3 使用urllib7.3 爬虫部署与管理7.3.1 配置远程主机7.3.2 本地爬虫编写7.3.3 爬虫部署7.3.4 查看运行结果7.3.5 爬虫管理框架7.4 本章小结
第8章 浏览器模拟与网站测试
8.1 测试定义8.1.1 测试方法8.2 Python单元测试8.2.1 使用unittest8.3 Python爬虫测试8.3.1 测试网站8.4 Selenium测试8.4.1 常用网站交互8.4.2 单元测试结合8.5 本章小结
第9章 更强大的爬虫
9.1 爬虫框架9.1.1 Scrapy是什么9.1.2 安装与入门9.1.3 编写Scrapy爬虫9.1.4 其他框架9.2 反爬虫策略9.2.1 headers伪装9.2.2 代理服务器9.2.3 访问频率控制9.3 多进程与分布式9.3.1 多进程编程9.3.2 分布式爬虫9.4 本章小结
第10章 爬虫实践:火车票余票提醒
10.1 程序设计10.1.1 网页分析10.1.2 返回数据解析10.1.3 微信消息推送10.1.4 运行与查看10.2 本章小结
第11章 爬虫实践:二手房数据分析
11.1 数据抓取11.1.1 网页分析11.1.2 地址转换11.1.3 代码编写11.1.4 数据下载11.2 数据绘图11.2.1 热力图绘制11.3 本章小结
第12章 爬虫(待续)
转载地址:http://ydjg.baihongyu.com/