《Spark大数据编程实用教程艾叔机械工业》[69M]百度网盘|pdf下载|亲测有效
《Spark大数据编程实用教程艾叔机械工业》[69M]百度网盘|pdf下载|亲测有效

Spark大数据编程实用教程艾叔机械工业 pdf下载

出版社 学源图书专营店
出版年 2025
页数 390页
装帧 精装
评分 8.8(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供Spark大数据编程实用教程艾叔机械工业电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

基本信息

书    名

  Spark大数据编程实用教程 

外文书名

  

出版社

  机械工业出版社 

作    者

  艾叔 

定    价

  109.00元

出版时间

  2020.05

I S B N

  9787111651000 

套装书

  否

重    量

  KG

装    帧

  平装

版    次

  1

字    数

 

配套资源  

页    数

  373

开      本

  16开

 

内容简介

本书是一本讲解Spark基础应用及编程的实用教程,基于 Spark 2.3 版本,内容包括 Spark 与大数据、构建 Spark 运行环境、开发一个Spark 程序、深入理解 Spark 程序代码、RDD 编程、Spark SQL 结构化数据处理、Spark Streaming、Structured Streaming、SparkR和GraphX。本书总结了Spark 学习的关键点;提出了 Spark 快速学习路线图;提供配套的 Spark前置课程学习资源链接,包括虚拟机、Linux 和 Shell 免费高清视频、《零基础快速入门Scala》免费电子书等,帮助零基础读者迅速夯实Spark基础。
本书配以大量的示例、源代码和注释,可以帮助读者快速、全面而又深入地掌握Spark编程技能。
本书既可作为高等院校大数据、云计算和人工智能相关专业的教材,也可以作为Spark学习者和大数据研发人员的技术参考书。

目    录

 

前言

1Spark与大数据1
1.1 大数据开发基础1
1.1.1 什么是大数据1
1.1.2 大数据开发的通用步骤2
1.1.3 大数据开发技术4
1.2 初识Spark 10
1.2.1 Spark是什么10
1.2.2 Spark的技术特点11
1.3 Spark技术栈12
1.4 Spark重要组件13
1.4.1 Spark Core 13
1.4.2 Spark SQL 14
1.4.3 GraphX 15
1.4.4 流数据处理16
1.4.5 SparkR 17
1.4.6 MLlib/ML 18
1.4.7 Spark交互工具18
1.5 SparkScala 19
1.5.1 Scala语言简介19
1.5.2 为什么用Scala开发Spark框架20
1.5.3 为什么用Scala开发Spark程序20
1.5.4 Scala开发Spark程序所涉及的技术20
1.5.5 Scala语言基础21
1.6 如何快速掌握Spark 21
1.6.1 Spark学习的痛点21
1.6.2 Spark快速学习路线图22
1.6.3 Spark学习中的关键点23
1.6.4 利用本书相关资源高效学习Spark 23
1.6.5 本书所使用的软件和版本25
1.7 练习25
2章 构建Spark运行环境26
2.1 Spark程序运行时架构26
2.2 构建Spark大数据运行环境28
2.2.1 构建HDFS 28
2.2.2 构建Yarn 30
2.2.3 构建Spark集群31
2.3 运行Spark程序(Local方式)31
2.4 运行Spark程序(分布式方式)32
2.4.1 Spark on Yarn 32
2.4.2 Spark on Standalone 36
2.5 Spark程序在spark-shell上运行41
2.6 使用Web UI监控Spark程序运行43
2.7 扩展集群节点48
2.8 练习49
3章 开发第一个Spark程序51
3.1 在命令行模式下开发Spark程序51
3.1.1 构建Scala程序编译环境51
3.1.2 使用Vim编写Spark程序53
3.1.3 使用命令编译、打包Spark程序54
3.1.4 运行Spark程序56
3.1.5 使用java命令运行Spark程序57
3.1.6 Spark程序编译、运行、部署的关键点58
3.2 使用IDEA开发Spark程序58
3.2.1 IDEA安装和基本使用59
3.2.2 使用IDEA编辑Spark代码60
3.2.3 IDEA编译、打包62
3.2.4 IDEA远程提交Spark程序63
3.3 练习64
4章 深入理解Spark程序代码66
4.1 Spark程序代码结构66
4.2 Spark程序代码的核心概念68
4.2.1 RDD 68
4.2.2 Application 68
4.2.3 Job 69
4.2.4 DAG 70
4.2.5 Stage 72
4.2.6 Task 76
4.2.7 ApplicationJobStageTask的并行粒度和并行条件77
4.3 Spark程序代码执行过程77
4.4 练习85
5RDD编程86
5.1 RDD核心概念86
5.1.1 Transformation的基本概念87
5.1.2 Action的基本概念88
5.1.3 Partition的基本概念88
5.2 创建RDD 89
5.3 RDD Partition 93
5.4 Transformation操作107
5.5 Action操作130
5.6 RDDcache/persistcheckpoint操作136
5.7 练习140
6Spark SQL结构化数据处理142
6.1 Spark SQL的核心概念142
6.2 Spark SQL数据处理概述147
6.3 构建Spark SQL运行环境150
6.4 DataFrame/Dataset快速上手157
6.5 DataFrame/Dataset与数据源的转换165
6.6 DataFrame/Dataset常用API 198
6.7 SQL操作223
6.8 练习234
7Spark Streaming 236
7.1 Spark Streaming基础236
7.2 编写一个Spark Streaming程序241
7.3 Spark Streaming Web UI的使用244
7.4 多路流数据合并处理示例250
7.5 DStream Transformation操作255
7.6 DStream Output 操作262
7.7 练习264
8Structured Streaming 265
8.1 Structured Streaming基础265
8.2 Structured Streaming接入Text File数据源268
8.3 Structured Streaming接入Rate数据源273
8.4 使用Schema解析JSON格式数据源274
8.5 使用DataFrame/Dataset处理流数据277
8.6 Structured Streaming Window操作282
8.7 Structured Streaming Watermarking操作288
8.8 Structured Streaming JOIN操作290
8.9 练习304
9SparkR 305
9.1 SparkR基础305
9.2 构建SparkR程序开发和运行环境307
9.3 SparkR代码的执行方式308
9.4 SparkR的基本使用314
9.5 SparkR机器学习算子323
9.6 利用SparkR实现单词统计和图形输出326
9.7 练习329
10GraphX 330
10.1 GraphX基础330
10.2 GraphX的基本数据结构335
10.3 GraphX实现最短路径算法——SGDSP 354
10.4 GraphX Pregel的原理及使用361
10.5 GraphX Pregel实现最短路径算法——SGPSP 366
10.6 练习370
参考文献 372