《智能运维从0搭建大规模分布式AIOps系统智能运维基础设施智能运维技术详解书籍》[63M]百度网盘|pdf下载|亲测有效
《智能运维从0搭建大规模分布式AIOps系统智能运维基础设施智能运维技术详解书籍》[63M]百度网盘|pdf下载|亲测有效

智能运维从0搭建大规模分布式AIOps系统智能运维基础设施智能运维技术详解书籍 pdf下载

出版社 蓝墨水图书专营店
出版年 2025
页数 390页
装帧 精装
评分 9.4(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供智能运维从0搭建大规模分布式AIOps系统智能运维基础设施智能运维技术详解书籍电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com


智能运维:从0搭建大规模分布式AIOps系统(首著惊爆降临 荟萃微博自动化实践精华 腾讯|滴滴|美团|清华产学界翘楚瞩目力荐 智能运维即未来 AIOps时代开启)

彭冬 朱伟 刘俊 等 著

ISBN 978-7-121-34663-7

2018年7月出版

定价:79.00元 

332页

16开

编辑推荐

√ 直接来自新浪微博智能运维团队多年前瞻探索与生产实践,技术思路可落地,解决方案有说服力。

√ 面向运维热点方向,详细分析底层原理,全面梳理技术体系,完整呈现从方法创新到工具化实践。

√ 以微博监控为例,从运维平台大数据处理到架构设计原理,从运维工程师到自动化智能监控专家。

√ 有 AIOps 模型|算法,有异常检测|根因分析|时序预测等运维实践,完美结合工程架构与算法实践。

内容提要

《智能运维:从0搭建大规模分布式AIOps系统》结合大企业的智能运维实践,全面完整地介绍智能运维的技术体系,让读者更加了解运维技术的现状和发展。同时,帮助运维工程师在一定程度上了解机器学习的常见算法模型,以及如何将它们应用到运维工作中。

《智能运维:从0搭建大规模分布式AIOps系统》共分4篇。第1篇运维发展史,重点阐述当前运维的发展现状及面临的技术挑战;第2篇智能运维基础设施,重点讲述大数据场景下的数据存储、大数据处理和分析的方法与经验,以及海量数据多维度多指标的处理分析技术;第3篇智能运维技术详解,重点关注在新时期大数据时代下智能化的运维技术,包括数据聚合与关联、数据异常点检测、故障诊断和分析、趋势预测算法;第4篇技术案例详解,为大家梳理了通过开源框架ELK快速构建智能监控系统的整体方案,还将分享微博平台和微博广告两个不同业务场景下智能监控系统的技术实践。

《智能运维:从0搭建大规模分布式AIOps系统》适合运维、开发、架构、DevOps工程师及广大互联网技术爱好者研读和借鉴。

目录

第1篇 开门见山:运维发展史 

第1章 运维现状  2 

1.1 运维工程  2 

1.1.1 认识运维  2 

1.1.2 主要职责  4 

1.1.3 运维技术  5 

1.2 运维发展历程  6 

1.2.1 人工阶段  6 

1.2.2 工具和自动化阶段  7 

1.2.3 平台化阶段  7 

1.2.4 智能运维阶段  8 

1.3 运维现状  9 

1.3.1 故障频发  9 

1.3.2 系统复杂性  10 

1.3.3 大数据环境  12 

1.4 本章小结  14 

1.5 参考文献  14 

第2章 智能运维  15 

2.1 海量数据的存储、分析和处理  16 

2.2 多维度、多数据源  18 

2.3 信息过载  19 

2.4 复杂业务模型下的故障定位  21 

2.5 本章小结  22 

2.6 参考文献  22 

第2篇 站在巨人肩上:智能运维基础设施 

第3章 开源数据采集技术  25 

3.1 数据采集工具对比  25 

3.2 轻量级采集工具Filebeat  26 

3.2.1 Filebeat工作原理  26 

3.2.2 Filebeat的安装与配置  28 

3.2.3 启动和运行Filebeat  38 

3.3 日志采集解析工具  38 

3.3.1 Logstash工作原理  39 

3.3.2 安装Logstash  40 

3.3.3 配置Logstash  41 

3.3.4 启动Logstash  49 

3.4 本章小结  49 

3.5 参考文献  50 

第4章 分布式消息队列  51 

4.1 开源消息队列对比与分析  51 

4.1.1 概述  51 

4.1.2 ZeroMQ  51 

4.1.3 ActiveMQ  52 

4.1.4 RocketMQ  52 

4.1.5 Kafka  53 

4.2 Kafka的安装与使用  53 

4.2.1 组件概念  53 

4.2.2 基本特性  53 

4.2.3 安装与使用  54 

4.2.4 Java API的使用  55 

4.3 案例分析  57 

4.3.1 日志采集  58 

4.3.2 实时结算  58 

4.3.3 实时计算  58 

4.4 本章小结  58 

4.5 参考文献  59 

第5章 大数据存储技术  60 

5.1 传统数据存储  60 

5.1.1 传统应用的架构  60 

5.1.2 传统存储的运行机制  61 

5.1.3 传统存储带来的问题  62 

5.2 基于HDFS的分布式存储  63 

5.2.1 分布式存储的定义  63 

5.2.2 HDFS的基本原理  64 

5.2.3 HDFS架构解析  65 

5.2.4 HDFS的优势  66 

5.2.5 HDFS不适合的场景  67 

5.3 分层存储  68 

5.3.1 数据仓库  68 

5.3.2 数据仓库分层架构  70 

5.3.3 分层存储的好处  73 

5.4 案例分析  73 

5.4.1 数据存储架构  73 

5.4.2 数据仓库建模  74 

5.4.3 常见的存储问题及解决方案  80 

5.5 本章小结  80 

5.6 参考文献  80 

第6章 大规模数据离线计算分析  82 

6.1 经典的离线计算  82 

6.1.1 Linux神级工具sed和awk  82 

6.1.2 Python数据处理Pandas基础  84

6.1.3 Python的优势和不足  88 

6.2 分布式离线计算  89 

6.2.1 MapReduce离线计算  89 

6.2.2 离线计算的数据倾斜问题  97 

6.2.3 分布式离线计算的技术栈  100 

6.3 案例分析  101 

6.3.1 离线计算管理  102 

6.3.2 离线计算原子控制  103 

6.3.3 离线计算的数据质量  103 

6.4 本章小结  104 

6.5 参考文献  105 

第7章 实时计算框架  106 

7.1 关于实时流计算  106 

7.1.1 如何提高实时流计算的实时性  106 

7.1.2 如何提高实时流计算结果的准确性  107 

7.1.3 如何提高实时流计算结果的响应速度  107 

7.2 Spark Streaming计算框架介绍  107 

7.2.1 概述  107 

7.2.2 基本概念  108 

7.2.3 运行原理  108 

7.2.4 编程模型  109 

7.2.5 Spark Streaming的使用  110 

7.2.6 优化运行时间  114 

7.3 Flink计算框架  115 

7.3.1 基本概念  116 

7.3.2 Flink特点  116 

7.3.3 运行原理  118 

7.3.4 Java API的使用  121 

7.4 案例分析  124 

7.4.1 背景介绍  125 

7.4.2 架构设计  126 

7.4.3 效果分析  126 

7.5 本章小结  126 

7.6 参考文献  126 

第8章 时序数据分析框架  127 

8.1 时序数据库简介  127 

8.1.1 什么是时序数据库  127 

8.1.2 时序数据库的特点  128 

8.1.3 时序数据库的对比  130 

8.2 时序数据库Graphite  131 

8.2.1 Graphite简介  131 

8.2.2 Graphite在微博广告监控系统中的应用  137 

8.3 多维分析利器Druid  139 

8.3.1 什么是Druid  139 

8.3.2 Druid架构  140 

8.3.3 Druid在微博广告监控平台中的应用  144 

8.4 性能神器ClickHouse  147 

8.4.1 什么是ClickHouse  147 

8.4.2 ClickHouse的特性  148 

8.4.3 ClickHouse的不足  149 

8.4.4 安装配置ClickHouse  149 

8.4.5 表引擎  153 

8.4.6 函数支持  157 

8.5 本章小结  160 

8.6 参考文献  160 

第9章 机器学习框架  161 

9.1 简介  161 

9.2 TensorFlow介绍  162 

9.2.1 什么是TensorFlow  162 

9.2.2 下载安装  162 

9.2.3 “Hello TensorFlow”示例  166 

9.3 TensorFlow进阶  166 

9.3.1 基础理论  167 

9.3.2 模型准备  169 

9.3.3 训练数据  169 

9.3.4 模型训练  171 

9.3.5 生成seq2seq句子  174 

9.3.6 运行演示  175 

9.4 本章小结  178 

9.5 参考文献  179 

第3篇 运维新时代:智能运维技术详解 

第10章 数据聚合与关联技术  182 

10.1 数据聚合  182 

10.1.1 聚合运算  183 

10.1.2 多维度聚合  186 

10.2 降低维度  188 

10.2.1 将告警聚合成关联“事件”  189 

10.2.2 减少误报:告警分类  190 

10.3 数据关联  192 

10.4 实时数据关联案例  193 

10.4.1 设计方案  193 

10.4.2 效果  195 

10.5 本章小结  195 

10.6 参考文献  195 

第11章 数据异常点检测技术  196 

11.1 概述  196 

11.2 异常检测方法  198 

11.2.1 基于统计模型的异常点检测  199 

11.2.2 基于邻近度的异常点检测  202 

11.2.3 基于密度的异常点检测  203 

11.3 独立森林  204 

11.4 本章小结  207 

11.5 参考文献  207 

第12章 故障诊断和分析策略  208 

12.1 日志标准化  209 

12.2 全链路追踪  210 

12.3 SLA的统一  210 

12.