《深入浅出Python数据分析》[65M]百度网盘|pdf下载|亲测有效
《深入浅出Python数据分析》[65M]百度网盘|pdf下载|亲测有效

深入浅出Python数据分析 pdf下载

出版社 清华大学出版社京东自营官方旗舰店
出版年 2022-03
页数 390页
装帧 精装
评分 9.1(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供深入浅出Python数据分析电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

产品特色

内容简介

数据时代的来临带动了新一波的智能革命,数据与算法驱动了各个领域的改变。在几个市场热门的讨论议题中,都可以看到数据应用扮演的角色。在面对真实世界的数据时,有许许多多的事情需要考虑。本书试图从最务实的角度开始,结合理论与实践去探索数据科学的真实世界,帮助读者一步一步地培养数据时代下的思维与技术。本书将从基础的 Python 编程开始,以数据分析的流程为主轴一步一步地解析,然后展开介绍数据收集、数据前处理、特征工程、探索式分析等。本书系统性地从函数库开始学习,并拓展到不同的应用场景。

本书实用性强,提供数据分析所必需的编程技能的培训,以及常见第三方软件和库的使用方法;以数据科学家、数据分析师等数据应用工作的实践经验作为培养目标,适合对 Python与数据分析有兴趣的人阅读。


作者简介

张维元,毕业于中国台湾清华大学,主要研究领域为大数据应用。目前在多家初创公司担任工程师及技术顾问,曾担任大型技术会议的演讲嘉宾与软件课程讲师。擅长网站开发及数据科学,精通Python与JavaScript语言。

目录

第1章 数据分析与Python

1.1 数据分析概述 002

1.1.1 数据分析兴起与发展的时代背景 002

1.1.2 什么是数据分析 003

1.1.3 数据分析的发展方向 003

1.1.4 大数据与厚数据 005

1.1.5 数据挖掘、机器学习与深度学习 006

1.2 数据项目 007

1.2.1 定义数据项目 008

1.2.2 数据项目团队的组成 008

1.2.3 数据项目的分析流程 009

1.3 Python与数据分析的关系 011

1.3.1 为什么要用Python进行数据分析 011

1.3.2 Python的数据分析系统 011

1.4 数据分析人员的学习地图 012

1.4.1 怎样成为数据分析人员 012

1.4.2 技能树养成之路 013

第2章 Python基础

2.1 Python简介 016

2.1.1 执行Python程序的主要方式 017

2.1.2 编写Python程序 017

2.1.3 相关的开发管理工具 018

2.2 开发环境准备 020

2.2.1 Anaconda 020

2.2.2 Jupyter Notebook 020

2.3 一个简单的范例 022

2.4 数据类型 025

2.4.1 数值 025

2.4.2 字符串 027

2.4.3 容器 029

2.5 数据运算 034

2.6 流程控制 035

2.6.1 条件判断 035

2.6.2 while循环 035

2.6.3 for循环 035

2.6.4 循环中断 036

2.7 函数与类 037

2.7.1 函数 037

2.7.2 类 039

2.8 错误处理 040

第3章 数据来源与获取

3.1 数据来源与数据格式 044

3.1.1 数据来源 044

3.1.2 数据格式 045

3.2 开放数据及其来源 045

3.2.1 什么是开放数据 046

3.2.2 常见的开放数据来源 046

3.3 如何使用Python存取数据 047

3.3.1 下载文件 047

3.3.2 读写文件 048

3.3.3 自动读写文件 049

3.3.4 读文件范例 049

3.4 API数据来源与请求串接存取 054

3.4.1 Requests库 054

3.4.2 常见的API串接手法 056

第4章 网络爬虫的技术和实战

4.1 认识HTTP网站架构与数据沟通方式 062

4.1.1 网站前后端运作架构 062

4.1.2 网页结构解析 063

4.1.3 静态网页与动态网页 066

4.2 网页爬虫之静态网页篇 067

4.2.1 静态网页概述 067

4.2.2 使用Requests取得网页数据 068

4.2.3 使用BeautifulSoup解析网页 070

4.2.4 静态网页爬虫的实际案例 072

4.3 网页爬虫之动态网页篇 073

4.3.1 动态网页概述 073

4.3.2 自动化浏览器交互 074

4.3.3 模拟调用API 075

4.3.4 动态网页爬虫的实际案例 075

4.4 实践中的爬虫应用 077

4.4.1 其他Python爬虫工具 077

4.4.2 防爬虫机制与处理策略 077

4.4.3 自动持续更新的爬虫程序 079

第5章 常见的数据分析工具

5.1 高效能的数学运算工具NumPy 082

5.1.1 贴近数学向量的数据结构NdArray 082

5.1.2 从一个简单的例子出发 084

5.1.3 数组的建立 084

5.1.4 数据选取 086

5.1.5 基本操作与运算 087

5.1.6 自带函数与通用函数 089

5.1.7 迭代与循环 091

5.1.8 利用数组进行数据处理 093

5.2 串起数据与程序分析工具Pandas 093

5.2.1 面向数据集的数据结构:Series与DataFrame 094

5.2.2 建立对象 094

5.2.3 数据选取 097

5.2.4 插入与丢弃数据 099

5.2.5 算术运算和数据对齐 101

5.2.6 排序 102

5.2.7 迭代与重复操作 103

5.2.8 数据合并与重组 104

5.2.9 存取外部数据 107

5.3 可视化呈现数据工具Matplotlib 107

5.3.1 Matplotlib与pyplot 108

5.3.2 图表信息 110

5.3.3 处理多个图形 112

5.3.4 完整的Matplotmap图 113

5.3.5 其他图表 115

第6章 定义问题与观察数据

6.1 如何定义一个数据项目 122

6.2 如何学习并开始一个数据项目 123

6.2.1 如何学习数据分析 123

6.2.2 如何开始一个数据项目 124

6.3 观察数据的N件事 125

6.3.1 准备数据 125

6.3.2 明确数据的关注点 125

6.3.3 观察数据的步骤 126

6.4 示范如何观察数据 128

6.4.1 房屋数据集 128

6.4.2 犯罪数据集 132

第7章 数据清理与类型转换

7.1 清理缺失或错误数据 138

7.1.1 可以学习的数据 138

7.1.2 从外部数据到程序 138

7.1.3 哪些是需要被处理的数据 139

7.2 选取和筛选数据 139

7.2.1 DataFrame的基本操作 139

7.2.2 选取和筛选数据的方式 140

7.3 定义缺失值与查阅数据 145

7.3.1 定义缺失值 146

7.3.2 查阅栏位是否有缺失值 146

7.4 缺失值处理策略 147

7.4.1 用内建函数处理缺失值 147

7.4.2 缺失值处理策略实例 147

7.5 数据类型及其转换 149

7.5.1 数据类型 149

7.5.2 数据类型转换 149

第8章 数据探索与可视化

8.1 数据探索概述 154

8.1.1 什么是数据探索 154

8.1.2 身为数据分析者的敏锐 154

8.1.3 常见的数据探索方法 154

8.1.4 进行数据探索的目的 155

8.2 统合性数据描述 155

8.3 利用描述统计认识数据 156

8.3.1 描述统计 156

8.3.2 统计量分析 157

8.3.3 相关性分析 158

8.3.4 数据聚合 159

8.3.5 数据透视表与交叉统计表 160

8.4 利用可视化图表探索数据 162

8.4.1 数据可视化与探索图 162

8.4.2 常见的图表实例 162

8.5 数据探索实战分享 165

8.5.1 2013年美国社区调查 165

8.5.2 波士顿房屋数据集 165

第9章 特征工程

9.1 特征工程概述 170

9.1.1 特征工程是什么 170

9.1.2 为什么要做特征工程 170

9.1.3 如何做特征工程 171

9.2 异常值处理 171

9.2.1 异常值检查 171

9.2.2 处置异常值的方式 173

9.3 特征缩放 173

9.3.1 正规化 173

9.3.2 标准化 174

9.4 数据转换 174

9.4.1 将连续数据转换为离散数据 175

9.4.2 将类别数据转换为数值数据 175

9.5 特征操作 178

9.5.1 特征重建 178

9.5.2 连续特征组合 178

9.5.3 离散特征组合 178

9.6 特征选择 179

9.6.1 过滤式 179

9.6.2 包裹式 180

9.6.3 嵌入式 181

9.7 特征提取与降维 182

9.7.1 维度灾难 182

9.7.2 主成分分析 182

9.7.3 线性判别分析 183

第10章 示例应用

10.1 示例应用1:泰坦尼克号 186

10.1.1 使用数据集与背景 186

10.1.2 定义问题与观察数据 186

10.1.3 数据清理与类型转换 189

10.1.4 数据探索与可视化 193

10.1.5 特征工程 198

10.1.6 机器学习 200

10.2 示例应用2:房价预测 202

10.2.1 使用数据集与背景 202

10.2.2 定义问题与观察数据 203

10.2.3 数据清理与类型转换 203

10.2.4 数据探索与可视化 206

10.2.5 特征工程 207

10.2.6 机器学习 207

10.3 示例应用3:Quora 208

10.3.1 使用数据集与背景 208

10.3.2 定义问题与观察数据 209

10.3.3 特征工程与数据探索 209


前言/序言

前言


为什么要写这本书?

数据时代下,数据将驱动很多领域产生有趣的新进展。数据的使用也变成了一个实用的技能,不再仅限于计算机或统计学行业。在这个技术的推动之下,任何领域的人或多或少都应该要培养数据的思考与使用能力。本书将以浅显易懂的内容与实务场景,逐步培养数据开发者的相应技能。

本书采用Python作为主要的程序语言,Python语言拥有简单、易用、易上手、社区资源丰富等优点,特别在数据分析这个领域,它有很多优秀的第三方套件,能够帮助开发者专注项目本身。本书与其他图书的主要区别是,先系统分析几个数据分析中的主流套件,再进一步将场景拉回实际应用。本书以数据分析的流程为主轴一步一步解析各个环节,包括数据收集、数据前处理、特征工程、探索式分析等,让读者全面、深入、透彻地理解Python的数据分析套件,并将其用于实际应用。

本书有何特色?

1. 涵盖Python用于数据分析的主流工具

本书涵盖了数据收集的Request、BeautifulSoup、Seleium套件,以及高效能的数学运算工具NumPy、串起数据与程序分析的Pandas,还有用于视觉化呈现数据的Matplotlib。

2. 解析与深入探讨数据分析的步骤

本书将套件与工具应用到不同的使用情境,对数据收集、数据前处理、特征工程、探索式分析等每个环节的实践内容进行深入探讨。

3. 大量的范例与实用代码

本书在每个章节都提供大量的范例作为参考,代码都来自真实的项目。通过对每一段代码的详细了解,读者可以充分理解其作用,并且能够重复地将这些代码应用于项目中。

4. 真实的案例解析

本书最后一章提供了3个实战案例。读者可以将本书所介绍的思考方法与实操代码用于真实项目中,从零开始思考解法。

5. 提供完善的技术支持和售后服务

本书提供了技术支持邮箱:v123582@gmail.com。读者在阅读本书的过程中有任何疑问都可以通过该邮箱获得帮助。

本书内容及知识体系

第1篇数据分析与Python程序语言(第1~2章)

本书第1章从数据分析的发展说起,从早期的统计分析到现今的大数据与人工智能发展,介绍计算机科学的演进如何带动数据时代的到来;接着阐述数据项目分析流程应如何制定,以及Python与数据分析的关系;最后介绍数据科学家必备的知识与技能。第2章介绍与Python相关的基础知识,为后续深入学习Python打下基础。

第2篇数据的存取与使用(第3~4章)

第3章介绍常见的数据来源与获取方式,归纳成几种常见的形式,即文件、API与网页爬虫。第4章深入讨论网络爬虫的实操技术,从认识HTTP网站框开始到爬虫应用,全方位解析网络爬虫相关内容。

第3篇常见数据分析工具(第5章)

第5章介绍3个将 Python 用于数据分析的主流套件,分别是高效能的数学运算工具NumPy、串起数据与程序设计工具Pandas和可视化呈现数据工具Matplotlib,并系统性地介绍这3个主流套件的使用方法与其核心目标。

第4篇数据分析流程(第6~9章)

第6~9章,依照数据分析的流程—“定义问题与观察数据”“数据清理与类型转换”“数据探索与可视化”“特征工程”4个环节,解析如何使用 Python 与搭配适当的工具进行数据分析。

第5篇数据分析流程示例应用(第10章)

本书第10章提供了3个项目实战案例,利用几个真实的数据集实践本书前面讨论的各种方法。

适合阅读本书的读者

需要全面学习 Python 数据分析的人员。

对数据分析、人工智能有兴趣的人员。

希望能够从零开始完成数据分析项目的人员。

即将成为与数据分析相关的从业人员。

需要一本数据分析训练手册的人员。

阅读本书的建议

没有Python基础的读者,建议从第2章开始阅读,先培养基础的程序能力。

有一定Python程序基础的读者,可以根据实际情况有重点地选择阅读各个模块和项目案例。

对于每一个使用情境和范例代码,自己先思考一下再阅读,并且在每个案例后都尝试其他的优化方式,能够达到最佳的学习效果。

可以了解书中的每一个案例,然后套用不同的数据集实现类似的过程。