前言
为什么要写这本书?
数据时代下,数据将驱动很多领域产生有趣的新进展。数据的使用也变成了一个实用的技能,不再仅限于计算机或统计学行业。在这个技术的推动之下,任何领域的人或多或少都应该要培养数据的思考与使用能力。本书将以浅显易懂的内容与实务场景,逐步培养数据开发者的相应技能。
本书采用Python作为主要的程序语言,Python语言拥有简单、易用、易上手、社区资源丰富等优点,特别在数据分析这个领域,它有很多优秀的第三方套件,能够帮助开发者专注项目本身。本书与其他图书的主要区别是,先系统分析几个数据分析中的主流套件,再进一步将场景拉回实际应用。本书以数据分析的流程为主轴一步一步解析各个环节,包括数据收集、数据前处理、特征工程、探索式分析等,让读者全面、深入、透彻地理解Python的数据分析套件,并将其用于实际应用。
本书有何特色?
1. 涵盖Python用于数据分析的主流工具
本书涵盖了数据收集的Request、BeautifulSoup、Seleium套件,以及高效能的数学运算工具NumPy、串起数据与程序分析的Pandas,还有用于视觉化呈现数据的Matplotlib。
2. 解析与深入探讨数据分析的步骤
本书将套件与工具应用到不同的使用情境,对数据收集、数据前处理、特征工程、探索式分析等每个环节的实践内容进行深入探讨。
3. 大量的范例与实用代码
本书在每个章节都提供大量的范例作为参考,代码都来自真实的项目。通过对每一段代码的详细了解,读者可以充分理解其作用,并且能够重复地将这些代码应用于项目中。
4. 真实的案例解析
本书最后一章提供了3个实战案例。读者可以将本书所介绍的思考方法与实操代码用于真实项目中,从零开始思考解法。
5. 提供完善的技术支持和售后服务
本书提供了技术支持邮箱:v123582@gmail.com。读者在阅读本书的过程中有任何疑问都可以通过该邮箱获得帮助。
本书内容及知识体系
第1篇数据分析与Python程序语言(第1~2章)
本书第1章从数据分析的发展说起,从早期的统计分析到现今的大数据与人工智能发展,介绍计算机科学的演进如何带动数据时代的到来;接着阐述数据项目分析流程应如何制定,以及Python与数据分析的关系;最后介绍数据科学家必备的知识与技能。第2章介绍与Python相关的基础知识,为后续深入学习Python打下基础。
第2篇数据的存取与使用(第3~4章)
第3章介绍常见的数据来源与获取方式,归纳成几种常见的形式,即文件、API与网页爬虫。第4章深入讨论网络爬虫的实操技术,从认识HTTP网站框开始到爬虫应用,全方位解析网络爬虫相关内容。
第3篇常见数据分析工具(第5章)
第5章介绍3个将 Python 用于数据分析的主流套件,分别是高效能的数学运算工具NumPy、串起数据与程序设计工具Pandas和可视化呈现数据工具Matplotlib,并系统性地介绍这3个主流套件的使用方法与其核心目标。
第4篇数据分析流程(第6~9章)
第6~9章,依照数据分析的流程—“定义问题与观察数据”“数据清理与类型转换”“数据探索与可视化”“特征工程”4个环节,解析如何使用 Python 与搭配适当的工具进行数据分析。
第5篇数据分析流程示例应用(第10章)
本书第10章提供了3个项目实战案例,利用几个真实的数据集实践本书前面讨论的各种方法。
适合阅读本书的读者
需要全面学习 Python 数据分析的人员。
对数据分析、人工智能有兴趣的人员。
希望能够从零开始完成数据分析项目的人员。
即将成为与数据分析相关的从业人员。
需要一本数据分析训练手册的人员。
阅读本书的建议
没有Python基础的读者,建议从第2章开始阅读,先培养基础的程序能力。
有一定Python程序基础的读者,可以根据实际情况有重点地选择阅读各个模块和项目案例。
对于每一个使用情境和范例代码,自己先思考一下再阅读,并且在每个案例后都尝试其他的优化方式,能够达到最佳的学习效果。
可以了解书中的每一个案例,然后套用不同的数据集实现类似的过程。