本篇主要提供大数台架构与原型实现:数据中台建设实战计算机与互联网耿立超电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
商品基本信息,请以下列介绍为准 | |
商品名称: | 大数台架构与原型实现:数据中台建设实战 |
作者: | 耿立超 |
定价: | 108.0 |
出版社: | 电子工业出版社 |
出版日期: | 2020-07-01 |
ISBN: | 9787121390449 |
印次: | 1 |
版次: | 1 |
装帧: | |
开本: | 24开 |
内容简介 | |
目前,在基于大数据技术的数据中台建设过程中,由于缺乏完备的架构参考和类似于“脚手架”的原型项目,很多IT团队会在工程技术层面上感到无从下手。开发人员迫切地需要设计良好的架构参考和简单易用的原型项目帮助他们快速启动自己的数据中台建设,本书就是为这一目标而写作的。本书以大数台的架构设计为主题,围绕一个2万行源代码的原型项目讲解和演示如何在工程技术层面构建当下流行的数据中台。全书涵盖建设一个企业数台所需的各个重要环节,包括基础设施建设、数据采集、主数据管理、实时计算、批处理与数据仓库、数据存储及作业调度,每个环节独立成章,每一章介绍对应主题的架构方案和技术选型,然后结合原型项目讲解具体的实现细节。如果你是一位架构师,本书可以帮助你提升对大数台的整体把控力;如果你是中不错开发人员,建议你选择自己感兴趣的章节深入学项目的代码;如果你是企业的CIO或数据团队的负责人,本书的、2、4章对于你定制企业数据中台战略、规划数台蓝图及组建数据团队都有重要的参考价值。 |
目录 | |
第1章 企业与数据 1 1.1 数据的价值 3 1.2 企业的数据应用能力 6 1.3 企业的数据技术成熟度 12 1.4 数据团队建设 14 1.4.1 大数据人才类型 14 1.4.2 数据团队的组织与管理 20 1.5 建设数据文化 25 第2章 聚焦中台 27 2.1 中台简介 27 2.2 企业信息系统现状 28 2.2.1 点对点式的系统集成 29 2.2.2 重复建设 30 2.2.3 阻碍业务沉淀与发展 31 2.3 烟囱架构案例:会员管理 31 2.4 曾经的“救赎”——SOA 38 2.5 中台详解 41 2.5.1 中台架构 42 2.5.2 中台的技术体系 46 2.5.3 中台的组织架构 48 2.5.4 中台不是“银弹” 51 2.6 数据中台 52 2.6.1 企业数据资产的现状 53 2.6.2 数据中台具备的能力 54 2.6.3 数据中台建设策略 56 第3章 基础设施 60 3.1 集群规划 61 3.1.1 集群规模与节点配置 61 3.1.2 节点角色分配 63 3.2 创建实例与组网 65 3.2.1 登录云控制台 65 3.2.2 创建专有网络 67 3.2.3 创建组 67 3.2.4 创建实例 72 3.2.5 申请弹性公网IP地址 78 3.3 安装集群 79 3.3.1 软件清单 79 3.3.2 环境预配置 80 3.3.3 安装Redis 86 3.3.4 安装Galera(MySQL集群) 87 3.3.5 搭建本地CDH Repository 100 3.3.6 安装Cloudera Manager Server 103 3.3.7 安装CDH 110 3.3.8 高可用配置 114 3.3.9 安装Spark 2 117 3.3.10 启用Spark SQL 118 3.4 安装单节点集群 121 第4章 架构与原型 122 4.1 大数台架构设计 123 4.2 原型项目业务背景 127 4.3 原型项目架构方案 132 4.4 原型项目工程结构 139 4.5 部署原型项目 142 4.5.1 配置服务器 142 4.5.2 构建与部署 151 4.5.3 化增量部署 165 第5章 数据采集 167 5.1 技术堆栈与选型 168 5.2 需求与概要设计 171 5.3 原型项目设计 173 5.4 生成dummy数据 174 5.5 基于Sqoop的批量导入 177 5.5.1 项目原型 177 5.5.2 使用Sqoop 180 5.5.3 增量导入与全量导入 184 5.6 基于Camel的实时采集 185 5.6.1 项目原型 186 5.6.2 基本的数据采集 188 5.6.3 应对采集作业超时 193 5.6.4 应对数据延迟就绪 197 第6章 主数据管理 202 6.1 主数管理据系统的建设策略 202 6.2 原型设计 204 6.3 项目构建与运行 205 6.4 使用主数据 209 6.5 围绕主数行领域建模 209 6.6 主数据在内存数据库中的组织粒度 219 第7章 实时计算 221 7.1 ETL已死,流计算永存 221 7.2 技术堆栈与选型 223 7.2.1 Storm 223 7.2.2 Spark Streaming 225 7.2.3 Flink 235 7.2.4 Kafka Stream 237 7.2.5 关于选型的考量 238 7.3 实时计算需求分析 239 7.4 原型项目介绍与构建 241 7.5 流计算工程结构 243 7.6 集成Kafka 245 7.7 集成HBase 246 7.8 基于时间窗口的聚合运算 252 7.9 自定义状态的流 255 7.10 自定义状态的设计 260 7.11 Structured Streaming性能相关的参数 263 第8章 批处理与数据仓库 266 8.1 大数据与数据仓库 266 8.2 数据仓库的基本理论 267 8.2.1 维度和度量 268 8.2.2 事实表和维度表 268 8.2.3 维度的基数 269 8.2.4 Cube和Cuboid 269 8.2.5 星型模型与雪花模型 269 8.3 批处理需求分析 271 8.4 数据仓库架构 272 8.5 原型项目介绍与构建 277 8.6 数据仓库工程结构 283 8.7 临时数据层的设计与构建 285 8.8 源数据层的设计与构建 286 8.8.1 数据模型 287 8.8.2 建表并处理数据 288 8.8.3 SQL黏合与作业提交 293 8.8.4 增量导入与全量导入 298 8.8.5 源数据层的表分区 300 8.8.6 SRC层数据归档 300 8.9 明细数据层的设计与构建 301 8.9.1 数据模型 301 8.9.2 建表并处理数据 302 8.9.3 合并增量数据 305 8.9.4 SQL参数替换 307 8.10 汇总数据层的设计与构建 309 8.10.1 数据模型 309 8.10.2 建表并处理数据 312 8.10.3 构建维度模型 314 8.10.4 缓慢变化维度 318 8.10.5 2型SCD表 320 8.10.6 生成代理主键 328 8.10.7 运行示例 329 8.11 实现UDF 332 第9章 数据存储 335 9.1 批处理的数据存储 335 9.2 NoSQL数据库概览 341 9.3 HBase与Cassandra 343 9.4 HBase的Rowkey设计 349 9.4.1 “热点”问题与应对策略 349 9.4.2 定长处理 352 9.4.3 实践 352 9.5 探索HBase二级索引 356 第10章 作业调度 364 10.1 技术堆栈与选型 364 10.2 需求与概要设计 365 10.3 工作流的组织策略 366 10.4 工程结构 370 10.5 项目构建 372 10.6 实现工作流 375 10.7 实现coordinator 381 10.8 部署与提交工作流 385 10.9 作业依赖管理 389 10.9.1 Oozie的作业依赖管理 391 10.9.2 原型项目中的作业依赖 394 |
编辑推荐 | |
" 数据中台建设工程实战 首著 大数台建设脚手架 首著 涵盖建设一个企业数台所需各个重要环节 不仅有架构方案、技术选型,还有实现细节 更有作者14年相关从业经验的总结 以及长达3年的对本书内容的雕琢 书中的知识和见解可以复用于很多企业 丰富实的原型系统代码是一份宝贵的“礼物” 这是一本多年大数台建设的总结之作 也是一本数据中台工程建设实践指导之作 可以说是整个数据行业的“宝贵财富” 不同的读者都将从本书中获益匪浅 架构师:可提升对大数台的整体把控力 中不错开发人员:可深入学项目代码 CIO或数据团队的负责人:可参考数据中台战略、规划数台蓝图及组建数据团队在今天这个时代,我们不见得要自己搭建整台,但是了解原理可以让自己工作起来倍,不管是自己搭建,还是利用成台,懂得理论,明白实践,再开始实践就会胸有成竹、游刃有余。" |
媒体评论 | |
这本书的架构理论、方案和一些重要建议都经过了实践检验,并取得了良好的效果,我相信书中的知识和见解可以复用于很多企业,帮助他们打破信息孤岛,将线上与线下渠道连接在一起,为消费者提供更佳的用户体验,并帮助企业在激烈的市场竞争中迅速而敏捷地捕捉商机。 ——欧莱雅集团亚太区首席信息官 Rita Lau 本书涵盖了大数台建设的全部环节,通读下来,整体上实性很强,架构原理融于了工程原型的搭建过程,对于希望自己动手实践的读者会很有帮助,同时在作步骤中介绍了相应的逻辑及设计,有利于读者更好地领会背后的原理。在今天这个时代,我们不见得要自己搭建整台,但是了解原理可以让自己工作起来倍,不管是自己搭建,还是利用成台,懂得理论,明白实践,再开始在企业中搭建数据驱动内部经营的完善体系就会胸有成竹、游刃有余。 ——彩食鲜CTO、鲲鹏会荣誉导师、苏宁科技集团原副总裁 乔新亮 这本书的理论基础扎实,架构方案完备,更难能可贵的是它还有丰富实的原型系统代码供读者参考和学对很多读者来说是一份宝贵的“礼物”,而作为企业的CTO,这本书给我的惊喜除技术外,它还对企业的数据战略和中台架构做了精彩的论述,对很多企业构建数据中台都有指导意义。这是一本很有诚意、干货满满的书,不仅对程序员、架构师有帮助,也适合CIO、CTO参考。 ——华住集团技术副总裁及盟广CTO 王晓光 数据中台的概念满天飞,但是数据中台的落地始终是一个难点,很难统一。将数据中台的核心通用组件抽象出来,一步步地指导企业如何去构建,这会是数据中台领域的下一个课题。这本书率先在这一方向行了系统阐述,它从数据中台的概念出发,快速落地到实践指导层面,讲解如何从零开始构建数据中台的核心组件。这是一本靠“坚实的”实践积累出来的好书! ——精益数据体系创始人、ThoughtWorks数据智能 史凯 行各类数据分析时,都离不开强大而完善的大数台。然而常规的IT数据团队对于业务方的需求及数据应用不甚了解,这本书对数据工程师有很大的参考价值,可以帮助他们对大数台有一个全面的认识,了解数据从获取到产出为分析结果这一过程中发生的事情,以便更好地与业务部门协作,实现大数据赋能。 ——欧莱雅(中国)有限公司大众化妆品部大数据总监 唐雯 本书作者曾经分享过很多在中台系统落地过程中遇到的问题及解决方案,这些在我们搭建营销相关的业务中台过程中很有启示作用。在每日千万级交易数据的中台建设过程中,我们深刻地体会到数据中台在数据驱动创新方面的价值。本书详细介绍了数据中台的技术选型和架构方案,以及落地过程中的一些关键要素。希望本书能够帮助读者快速搭建自己企业的数据中台,为业务发展助力。 ——饿了么营销中台架构师 宋艳飞 本书作者是一位深耕于大数据领域,并一直奋战在一线编写代码的架构师,作者凭借自身十多年的设计和研发经验,归纳总结出了这本通俗易懂的大数据架构和技术书籍。内容从企业数据战略规划到架构方案设计与技术选型,并从开发人员的实际需要出发给出了详细的工程代码,可以说,从理论到实战行了专业而细致的讲解。 ——埃森哲(中国)有限公司技术架构经理 张俊 这是一本富有实战色彩的大数据新作,汇聚了作者宝贵的经验与独到的观点。本书涵盖的知识与内容丰富,并呈纵深化结构,除技术内容外,还包括与大数台配套的人才能力、组织架构与管理方法论,适合不同级别的读者。 ——希尔顿酒店集团亚太区数据保护官、国际信息隐私专家协会上海分会 李宵声 |