《机器学习实践》[73M]百度网盘|pdf下载|亲测有效
《机器学习实践》[73M]百度网盘|pdf下载|亲测有效

机器学习实践 pdf下载

出版社 木垛图书旗舰店
出版年 2020-04
页数 390页
装帧 精装
评分 8.6(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供机器学习实践电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

基本信息

  • 商品名称:机器学习实践(数据科学应用与工作流的开发及优化)/数据科学与工程技术丛书
  • 作者:(美)安德鲁·凯莱赫//亚当·凯莱赫|责编:李忠明|译者:陈子墨//刘瀚文
  • 定价:99
  • 出版社:机械工业
  • ISBN号:9787111651369

其他参考信息(以实物为准)

  • 出版时间:2020-04-01
  • 印刷时间:2020-04-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:226

内容提要

本书以作者在BuzzFeed的工作经验为基础,将机器学习和计算机工程巧妙地结合在一起。第壹部分的基本原则是数据科学世界坚实的基础;第二部分介绍现实问题中的常用算法,帮助读者迅速解决实际问题,避免被数据误导、产生结论错误;第三部分则着眼于工程实践,基于工程角度突破瓶颈,让算法能够在现实条件中得以实现。

目录

译者序

前言
作者简介
部分 框架原则
第1章 数据科学家的定位 2
1.1 引言 2
1.2 数据科学家扮演的角色 2
1.2.1 公司规模 3
1.2.2 团队背景 3
1.2.3 职业晋升和发展 4
1.2.4 重要性 5
1.2.5 工作细分 5
1.3 结论 5
第2章 项目流程 7
2.1 引言 7
2.2 数据团队背景 7
2.2.1 专门岗位与资源池 8
2.2.2 研究分析 8
2.2.3 原型设计 9
2.2.4 集成的工作流 10
2.3 敏捷开发与产品定位 10
2.4 结论 15
第3章 量化误差 16
3.1 引言 16
3.2 量化测量值的误差 16
3.3 抽样误差 18
3.4 误差传递 20
3.5 结论 22
第4章 数据编码与预处理 23
4.1 引言 23
4.2 简单文本预处理 24
4.2.1 分词 24
4.2.2 n元模型 26
4.2.3 稀疏 26
4.2.4 特征选择 27
4.2.5 表示学习 29
4.3 信息量损失 31
4.4 结论 33
第5章 假设检验 34
5.1 引言 34
5.2 什么是假设 34
5.3 假设检验的错误类型 36
5.4 p值和置信区间 37
5.5 多重测试和p值操控 38
5.6 实例 39
5.7 假设检验的设计 40
5.8 结论 41
第6章 数据可视化 43
6.1 引言 43
6.2 数据分布和汇总统计 43
6.2.1 数据分布和直方图 44
6.2.2 散点图和热力图 48
6.2.3 箱线图和误差条 52
6.3 时间序列图 54
6.3.1 移动统计 54
6.3.2 自相关 56
6.4 图可视化 57
6.4.1 布局算法 57
6.4.2 时间复杂度 59
6.5 结论 60
第二部分 算法与架构
第7章 算法和架构简介 62
7.1 引言 62
7.2 架构 64
7.2.1 服务 64
7.2.2 数据源 65
7.2.3 分批及在线计算 66
7.2.4 规模扩展 66
7.3 模型 67
7.3.1 训练 68
7.3.2 预测 68
7.3.3 验证 69
7.4 结论 70
第8章 距离度量 71
8.1 引言 71
8.2 Jaccard距离 71
8.2.1 算法 72
8.2.2 时间复杂度 73
8.2.3 内存注意事项 73
8.2.4 分布式方法 73
8.3 MinHash 74
8.3.1 假设 75
8.3.2 时空复杂度 75
8.3.3 工具 75
8.3.4 分布式方法 75
8.4 余弦相似度 76
8.4.1 复杂度 78
8.4.2 内存注意事项 78
8.4.3 分布式方法 78
8.5 马氏距离 78
8.5.1 复杂度 79
8.5.2 内存注意事项 79
8.5.3 分布式方法 79
8.6 结论 80
第9章 回归 81
9.1 引言 81
9.1.1 选择模型 82
9.1.2 选择目标函数 82
9.1.3 模型拟合 83
9.1.4 模型验证 84
9.2 线性 小二乘 87
9.2.1 假设 88
9.2.2 复杂度 89
9.2.3 内存注意事项 89
9.2.4 工具 89
9.2.5 分布式方法 89
9.2.6 实例 90
9.3 线性回归中的非线性回归 97
9.4 随机森林 100
9.4.1 决策树 100
9.4.2 随机森林 103
9.5 结论 106
0章 分类和聚类 107
10.1 引言 107
10.2 逻辑回归 108
10.2.1 假设 111
10.2.2 时间复杂度 111
10.2.3 内存注意事项 112
10.2.4 工具 112
10.3 贝叶斯推断与朴素贝叶斯 112
10.3.1 假设 114
10.3.2 复杂度 114
10.3.3 内存注意事项 114
10.3.4 工具 114
10.4 K-Means 115
10.4.1 假设 118
10.4.2 复杂度 118
10.4.3 内存注意事项 118
10.4.4 工具 118
10.5  大特征值 118
10.5.1 复杂度 120
10.5.2 内存注意事项 120
10.5.3 工具 120
10.6 Louvain贪心算法 120
10.6.1 假设 121
10.6.2 复杂度 121
10.6.3 内存注意事项 121
10.6.4 工具 121
10.7  近邻算法 121
10.7.1 假设 123
10.7.2 复杂度 123
10.7.3 内存注意事项 123
10.7.4 工具 123
10.8 结论 123
1章 贝叶斯网络 125
11.1 引言 125
11.2 因果图、条件独立和马尔
 可夫 126
11.2.1 因果图和条件独立 126
11.2.2 稳定性和依赖性 127
11.3 d分离和马尔可夫性质 128
11.3.1 马尔可夫和因式
 分解 128
11.3.2 d分离 129
11.4 贝叶斯网络的因果图 132
11.5 模型拟合 133
11.6 结论 136
2章 降维与隐变量模型 137
12.1 引言 137
12.2 先验 137
12.3 因子分析 139
12.4 主成分分析 140
12.4.1 复杂度 142
12.4.2 内存注意事项 142
12.4.3 工具 142
12.5 独立成分分析 142
12.5.1 假设 145
12.5.2 复杂度 145
12.5.3 内存注意事项 146
12.5.4 工具 146
12.6 LDA主题模型 146
12.7 结论 152
3章 因果推断 153
13.1 引言 153
13.2 实验 154
13.3 观测值:一个实例 157
13.4 非因果阻断控制法 163
13.5 机器学习估计量 167
13.5.1 重新审视G公式 167
13.5.2 实例 168
13.6 结论 172
4章  机器学习 173
14.1 引言 173
14.2 优化 173
14.3 神经网络 175
14.3.1 神经网络层 176
14.3.2 神经网络容量 177
14.3.3 过拟合 179
14.3.4 批拟合 183
14.3.5 损失函数 183
14.4 结论 185
第三部分 瓶颈和优化
5章 硬件基础 188
15.1 引言 188
15.2 随机存取存储器 188
15.2.1 访问 188
15.2.2 易失性 189
15.3 非易失性/持久化存储 189
15.3.1 机械硬盘或“旋转磁盘” 189
15.3.2 固态硬盘 190
15.3.3 延迟 190
15.3.4 分页 190
15.3.5 颠簸 191
15.4 吞吐量 191
15.4.1 局部性 191
15.4.2 执行层局部性 191
15.4.3 网络局部性 192
15.5 处理器 192
15.5.1 时钟频率 192
15.5.2 核心 192
15.5.3 线程 193
15.5.4 分支预测 193
15.6 结论 194
6章 软件基础 196
16.1 引言 196
16.2 分页 196
16.3 索引 197
16.4 粒度 197
16.5 鲁棒性 198
16.6 提取、传输/转换、加载 199
16.7 结论 199
7章 软件架构 200
17.1 引言 200
17.2 客户端-服务器架构 200
17.3 n层架构/面向服务的架构 201
17.4 微服务架构 202
17.5 整体架构 203
17.6 实际案例(混合架构) 203
17.7 结论 204
8章 CAP定理 205
18.1 引言 205
18.2 一致性/并发 205
18.3 可用性 207
18.3.1 冗余 207
18.3.2 前端和负载均衡器 207
18.3.3 客户端的负载均衡 209
18.3.4 数据层 209
18.3.5 任务和Taskworker 211
18.3.6 故障转移 211
18.4 分区容错性 211
18.5 结论 213
9章 逻辑网络拓扑节点 214
19.1 引言 214
19.2 网络图 214
19.3 负载均衡 215
19.4 缓存 216
19.4.1 应用程序级缓存 216
19.4.2 缓存服务 217
19.4.3 直写缓存 218
19.5 数据库 219
19.5.1 主副本数据库 219
19.5.2 多主结构 220
19.5.3 A/B副本 220
19.6 队列 221
19.6.1 任务调度和并行任务 222
19.6.2 异步执行 223
19.6.3 API缓冲 223
19.7 结论 224
参考文献 225