本篇主要提供Python网络爬虫从入门到实践第2版电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
书[0名0]: | Python网络爬虫从入门到实践 [0第0]2版|8060175 |
图书定价: | 69元 |
图书作者: | 唐松 |
出版社: | [1机1]械工业出版社 |
出版日期: | 2019/6/7 0:00:00 |
ISBN号: | 9787111626879 |
开本: | 16开 |
页数: | 292 |
版次: | 1-1 |
作者简介 |
唐松 编著:唐松,康奈尔[0大0][0学0]信息科[0学0]研究生,高考获全额奖[0学0]金就读于香港中文[0大0][0学0]计量营销和金融[0学0],毕业后与IBM合作A100项目,为美的、中信等公司实践[0大0]数据落地项目,热衷将数据科[0学0]与[0商0]业结合应用。 |
内容简介 |
使用Python编写网络爬虫程序获取互联网上的[0大0]数据是[0当0]前的热门专题。本书内容包括三部分:基础部分、进阶部分和项目实践。基础部分([0第0]1~7章)[1主1]要介绍爬虫的三个步骤——获取网页、解析网页和存储数据,并通过诸多示例的讲解,让读者能够从基础内容开始系统性地[0学0]习爬虫技术,并在实践中[扌是]升Python爬虫水平。进阶部分([0第0]8~13章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步[扌是]升爬虫水平。项目实践部分([0第0]14~17章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。 |
目录 |
前言 [0第0]1章 网络爬虫入门1 1.1 为什么要[0学0]网络爬虫2 1.1.1 网络爬虫能带来什么[女子]处2 1.1.2 能从网络上爬取什么数据3 1.1.3 应不应该[0学0]爬虫3 1.2 网络爬虫是否合[0法0]3 1.2.1 Robots协议4 1.2.2 网络爬虫的约束5 1.3 网络爬虫的基本议题6 1.3.1 Python爬虫的流程7 1.3.2 三个流程的技术实现7 [0第0]2章 编写[0第0]一个网络爬虫9 2.1 搭建Python平台10 2.1.1 Python的安装10 2.1.2 使用pip安装[0第0]三方库12 2.1.3 使用编辑器Jupyter 编程13 2.1.4 使用编辑器Pycharm编程15 2.2 Python 使用入门18 2.2.1 基本命令18 2.2.2 数据类型19 2.2.3 条[亻牛]语句和循环语句21 2.2.4 函数23 2.2.5 [mian]向对象编程24 2.2.6 错误处理28 2.3 编写[0第0]一个简单的爬虫29 2.3.1 [0第0]一步:获取页[mian]29 2.3.2 [0第0]二步:[扌是]取需要的数据30 2.3.3 [0第0]三步:存储数据32 2.4 Python实践:基础巩固33 2.4.1 Python基础试题34 2.4.2 参考答案35 2.4.3 自我实践题38 [0第0]3章 静态网页抓取39 3.1 安装Requests40 3.2 获取响应内容40 3.3 定制Requests41 3.3.1 传递URL参数41 3.3.2 定制请求头42 3.3.3 发送[P1O1S]T请求43 3.3.4 [0超0]时44 3.4 Requests爬虫实践:TOP250电影数据44 3.4.1 网站分析45 3.4.2 项目实践45 3.4.3 自我实践题47 [0第0]4章 动态网页抓取48 4.1 动态抓取的实例49 4.2 解析真实地址抓取50 4.3 通过Selenium模拟浏览器抓取55 4.3.1 Selenium的安装与基本介绍55 4.3.2 Selenium的实践案例57 4.3.3 Selenium获取文章的所有[0评0]论58 4.3.4 Selenium的高级操作61 4.4 Selenium爬虫实践:深圳短租数据64 4.4.1 网站分析64 4.4.2 项目实践66 4.4.3 自我实践题69 [0第0]5章 解析网页70 5.1 使用正则表达式解析网页71 5.1.1 re.match方[0法0]71 5.1.2 re.search方[0法0]74 5.1.3 re.find[0all0]方[0法0]74 5.2 使用BeautifulSoup解析网页76 5.2.1 BeautifulSoup的安装76 5.2.2 使用BeautifulSoup获取博客标题77 5.2.3 BeautifulSoup的其他功能78 5.3 使用lxml解析网页82 5.3.1 lxml的安装82 5.3.2 使用lxml获取博客标题82 5.3.3 XPath的选取方[0法0]84 5.4 总结85 5.5 BeautifulSoup爬虫实践:房屋价格数据86 5.5.1 网站分析86 5.5.2 项目实践87 5.5.3 自我实践题89 [0第0]6章 数据存储90 6.1 基本存储:存储至TXT或CSV91 6.1.1 把数据存储至TXT91 6.1.2 把数据存储至CSV93 6.2 存储至MySQL数据库94 6.2.1 下载安装MySQL95 6.2.2 MySQL的基本操作99 6.2.3 Python操作MySQL数据库104 6.3 存储至MongoDB数据库106 6.3.1 下载安装MongoDB107 6.3.2 MongoDB的基本概念110 6.3.3 Python操作MongoDB数据库112 6.3.4 RoboMongo的安装与使用113 6.4 总结115 6.5 MongoDB爬虫实践:虎扑论坛116 6.5.1 网站分析116 6.5.2 项目实践117 6.5.3 自我实践题123 [0第0]7章 Scrapy框架124 7.1 Scrapy是什么125 7.1.1 Scrapy架构125 7.1.2 Scrapy数据流(Data Flow)126 7.1.3 选择Scrapy还是Requests+bs4127 7.2 安装Scrapy128 7.3 通过Scrapy抓取博客128 7.3.1 创建一个Scrapy项目128 7.3.2 获取博客网页并保存129 7.3.3 [扌是]取博客标题和链接数据131 7.3.4 存储博客标题和链接数据133 7.3.5 获取文章内容134 7.3.6 Scrapy的设置文[亻牛]136 7.4 Scrapy爬虫实践:财[纟巠][亲斤]闻数据137 7.4.1 网站分析137 7.4.2 项目实践138 7.4.3 自我实践题141 [0第0]8章 [扌是]升爬虫的速度142 8.1 并发和并行,同步和异步143 8.1.1 并发和并行143 8.1.2 同步和异步143 8.2 多线程爬虫144 8.2.1 简单的单线程爬虫145 8.2.2 [0学0]习Python多线程145 8.2.3 简单的多线程爬虫148 8.2.4 使用Queue的多线程爬虫150 8.3 多进程爬虫153 8.3.1 使用multiprocessing的多进程爬虫153 8.3.2 使用Pool + Queue的多进程爬虫155 8.4 多协程爬虫158 8.5 总结160 [0第0]9章 反爬虫问题163 9.1 为什么[0会0]被反爬虫164 9.2 反爬虫的方式有哪些164 9.2.1 不返回网页165 9.2.2 返回非目标网页165 9.2.3 获取数据变难166 9.3 如何“反反爬虫”167 9.3.1 修改请求头167 9.3.2 修改爬虫的间隔时间168 9.3.3 使用代理171 9.3.4 更换IP地址172 9.3.5 登录获取数据172 9.4 总结172 [0第0]10章 解决中文乱码173 10.1 什么是字符编码174 10.2 Python的字符编码176 10.3 解决中文编码问题179 10.3.1 问题1:获取网站的中文显示乱码179 10.3.2 问题2:非[0法0]字符抛出异常180 10.3.3 问题3:网页使用gzip压缩181 10.3.4 问题4:读写文[亻牛]的中文乱码182 10.4 总结184 [0第0]11章 登录与验证码处理185 11.1 处理登录表单186 11.1.1 处理登录表单186 11.1.2 处理cookies,让网页记住你的登录190 11.1.3 完整的登录代码193 11.2 验证码的处理194 11.2.1 如何使用验证码验证195 11.2.2 人工方[0法0]处理验证码197 11.2.3 OCR处理验证码200 11.3 总结203 [0第0]12章 服务器采集204 12.1 为什么使用服务器采集205 12.1.1 [0大0]规模爬虫的需要205 12.1.2 防止IP地址被封杀205 12.2 使用动态IP拨号服务器206 12.2.1 购买拨号服务器206 12.2.2 登录服务器206 12.2.3 使用Python更换IP208 12.2.4 结合爬虫和更换IP功能209 12.3 使用Tor代理服务器210 12.3.1 Tor的安装211 12.3.2 Tor的使用213 [0第0]13章 分布式爬虫218 13.1 安装Redis219 13.2 修改Redis配置222 13.2.1 修改Redis密码222 13.2.2 让Redis服务器被远程访问222 13.2.3 使用Redis Desktop Manager管理223 13.3 Redis分布式爬虫实践223 13.3.1 安装Redis库224 13.3.2 加入任务队列224 13.3.3 读取任务队列并下载图片225 13.3.4 分布式爬虫代码226 13.4 总结228 [0第0]14章 爬虫实践一:维基百科229 14.1 项目描述230 14.1.1 项目目标230 14.1.2 项目描述230 14.1.3 深度[0优0]先和广度[0优0]先232 14.2 网站分析233 14.3 项目实施:深度[0优0]先的递归爬虫235 14.4 项目进阶:广度[0优0]先的多线程爬虫237 14.5 总结241 [0第0]15章 爬虫实践二:[0知0]乎Live242 15.1 项目描述243 15.2 网站分析243 15.3 项目实施245 15.3.1 获取所有Live245 15.3.2 获取Live的听众248 15.4 总结251 [0第0]16章 爬虫实践三:百度地图API252 16.1 项目描述253 16.2 获取API秘钥254 16.3 项目实施255 16.3.1 获取所有拥有公园的城市257 16.3.2 获取所有城市的公园数据258 16.3.3 获取所有公园的详细信息262 16.4 总结266 [0第0]17章 爬虫实践四:[0畅0]销书籍267 17.1 项目描述268 17.2 网站分析268 17.3 项目实施270 17.3.1 获取亚马[xun]的图书销售榜列表270 17.3.2 获取所有分类的销售榜274 17.3.3 获取图书的[0评0]论276 17.4 总结279 |