作 者:【加】RichardS.Sutton(理查德?桑顿)【美】AndrewG.Barto(安德鲁?巴图) 著 俞凯 等 译

定 价:168

出 版 社:电子工业出版社

出版日期:2018年03月01日

页 数:519

装 帧:平装

ISBN:9787121295164


●目录
章 导论?? ? ? ? 1
1.1 强化学习?? ? ? ? 1
1.2 示例?? ? ? ? 4
1.3 强化学习要素?? ? ? ? 5
1.4 局限性与适用范围?? ? ? ? 7
1.5 扩展实例:井字棋 ? ??? ? ? ?? 8
1.6 本章小结?? ? ? ? 12
1.7 强化学习的早期历史?? ? ? ? 13
第I部分 表格型求解方法?? ? ? ? 23
第2章 多臂?? ? ? ? 25
2.1 一个 k 臂问题?? ? ? ? 25
2.2 动作-价值方法?? ? ? ? ? 27
2.3 10 臂测试平台?? ? ? ? 28
2.4 增量式实现?? ? ? ? 30
2.5 跟踪一个非平稳问题??? ? ? ? 32
2.6 乐观初始值?? ? ? ? 34
2.7 基于置信度上界的动作选择 ??? ? ? ? 35
2.8 梯度算法?? ? ? ? 37
2.9 关联搜索 (上下文相关的) ?? ? ? ? ? 40
2.10 本章小结?? ? ? ? 41
第3章 有限马尔可夫决策过程?? 45
3.1 “智能体-环境”交互接口 ?? ? ? ? 45
3.2 目标和收益 ?? ? ? ? ? ? ? ? ? ? 51
3.3 回报和分幕? ? ? ? ? ? 52
3.4 分幕式和持续性任务的统一表示法 ?? ?? 54
3.5 策略和价值函数 ?? ? ? ? ? 55
3.6 优策略和优价值函数 ? ?? ? 60
3.7 优性和近似算法 ? ? ? ? ?? ? ? ? ? ? ? ? 65
3.8 本章小结? ? ?? ? 66
第4章 动态规划 ? ?? ? 71
4.1 策略评估 (预测) ? ?? ? ? 72
4.2 策略改进? ?? ? 75
4.3 策略迭代? ?? ? 78
4.4 价值迭代? ?? ? 80
4.5 异步动态规划 ?? ? 83
4.6 广义策略迭代 ?? 84
4.7 动态规划的效率? ? ? ? 85
4.8 本章小结?? ? ? 86
第5章 蒙特卡洛方法 ?? ? 89
5.1 蒙特卡洛预测 ? ? ? 90
5.2 动作价值的蒙特卡洛估计 ?? ? ? ? ? ? ? 94
5.3 蒙特卡洛控制 ? ?? ? ? ? 95
5.4 没有试探性出发假设的蒙特卡洛控制 ? ?? ? ? ? ? ? 98
5.5 基于重要度采样的离轨策略 ? ?? ? ? ? ? ? 101
5.6 增量式实现 ? ?? 107
5.7 离轨策略蒙特卡洛控制 ? ?? ? ? ??? ? ? ? ? 108
5.8 ? 折扣敏感的重要度采样?? ? ? ? ? ?110
5.9 ? 每次决策型重要度采样?? ? ? ? ? 112
5.10 本章小结?? ? ? ? ? 113
第 6 章 时序差分学习 ? ?? ? ? 117
6.1 时序差分预测 ?? 117
6.2 时序差分预测方法的优势 ? ?? ? ? 122
6.3 TD(0) 的优性 ?? ? ? ? ? ? ? ? ? ? ? 124
6.4 Sarsa:同轨策略下的时序差分控制 ? ? ? ?? ? 127
6.5 Q 学习:离轨策略下的时序差分控制 ? ?? ? ? 129
6.6 期望 Sarsa ? ?? ? 131
6.7 大化偏差与双学习? ? ? ?? ? ? ? 133
6.8 游戏、后位状态和其他特殊例子? ?? ? 135
6.9 本章小结? ?? ? 136
第7章 n 步自举法 ?? ? ? 139
7.1 n 步时序差分预测 ?? ? ? ? ? ? ? ? 140
7.2 n 步 Sarsa ? ?? ? ? 144
7.3 n 步离轨策略学习 ? ? ? ? ? ? ? ?146
7.4 ? 带控制变量的每次决策型方法? ?? ? ?148
7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法? ?? ? ?150
7.6 ? 一个统一的算法:n 步 Q(σ) ? ?? ? ?153
7.7 本章小结?? ?? ? ?155
第8章 基于表格型方法的规划和学习 ?? ? ?? ? 157
8.1 模型和规划 ? ?? ? 157
8.2 Dyna:集成在一起的规划、动作和学习?? ? ? ? ? 159
8.3 当模型错误的时候 ?? ?? ? ? ? 1
8.4 优先遍历? ? ?? ? ? 166
8.5 期望更新与采样更新的对比 ?? ? ?? 170
8.6 轨迹采样?? ? ? 173
8.7 实时动态规划 ?? ? 176
8.8 决策时规划 ?? ? 179
8.9 启发式搜索 ? ?? ? ? 180
8.10 预演算法? ? ? ? 182
8.11 蒙特卡洛树搜索? ? ? ? ? ? ? ? 184
8.12 本章小结 ? ?? ? ? 187
8.13 第I部分总结 ?? ? ? ? ? ? ? 188
第II部分 表格型近似求解方法? ?? ? ? ? ? ? ? ? 193
第9章 基于函数逼近的同轨策略预测 ?? ? ? ? ? ? ? ? 195
9.1 价值函数逼近 ? ? ?? ? 195
9.2 预测目标 (VE ) ?? ? ? ? ? ? ? 196
9.3 随机梯度和半梯度方法 ? ?? ? ? 198
9.4 线性方法? ? ? ? ? ?? ? ? ? 202
9.5 线性方法的特征构造? ?? ? ? ? ? ? ? ? 207
9.5.1 多项式基 ? ?? ? ? ? 208
9.5.2 傅立叶基 ? ? ?? ? ? ? 209
9.5.3 粗编码? ? ? ? ? ? ?? ? ? 212
9.5.4 瓦片编码? ? ?? ?214
9.5.5 径向基函数 ?? ? ? ? ? ? ? ? 218
9.6 手动选择步长参数 ? ? ? ?? ? ? ? ? 219
9.7 非线性函数逼近:人工神经网络? ? ? ?? ? ? 220
9.8 小二乘时序差分 ? ? ? ?? ? ? ? 225
9.9 基于记忆的函数逼近? ? ? ? ?? ? 227
9.10 基于核函数的函数逼近 ? ? ? ?? ? 229
9.11 深入了解同轨策略学习:“兴趣”与“强调” ? ? ?? ? ? 230
9.12 本章小结 ? ? ?? ? ? ? 232
0章 基于函数逼近的同轨策略控制? ?? ? ? ? ? ? 239
10.1 分幕式半梯度控制 ? ? ?? 239
10.2 半梯度 n 步 Sarsa? ?? ? ? ? ? ? ? ? 242
10.3 平均收益:持续性任务中的新的问题设定? ? ?? ? 245
10.4 弃用折扣 ? ? ? ?? ? ? ? ? 249
10.5 差分半梯度 n 步 Sarsa ? ? ? ?? 251
10.6 本章小结 ? ?? ? ? ? ? ? 252
1 章 ? 基于函数逼近的离轨策略方法? ? ? ?? 253
11.1 半梯度方法? ? ? ?? 254
11.2 离轨策略发散的例子? ? ? ?? 256
11.3 致命三要素? ? ? ?? 260
11.4 线性价值函数的几何性质 ? ? ? ? ? ? ? ?? ? 262
11.5 对贝尔曼误差做梯度下降 ? ? ? ? ? ? ?? ? 266
11.6 贝尔曼误差是不可学习的 ? ? ? ? ? ? ? ? ? 270
11.7 梯度 TD 方法 ? ? ? ?? ? ? ? ? ? 274
11.8 强调 TD 方法 ? ??? 278
11.9 减小方差 ? ? ?? ? ? ? ? ? ? 279
11.10 本章小结 ? ? ? ? ?? ? ? ? ? ? 280
2章 资格迹 ? ? ? ? ?? ? ? ? 283
12.1 λ-回报? ? ? ? ?? ? ? ? ? 284
12.2 TD(λ)? ? ? ?? ? 287
12.3 n-步截断 λ- 回报方法 ? ? ?291
12.4 重做更新:在线 λ-回报算法? ? ? ? ?? ? 292
12.5 真实的在线 TD(λ) ? ? ? ? ?? ? 294
12.6 ? 蒙特卡洛学习中的荷兰迹? ? ? ? ?? ? 296
12.7 Sarsa(λ)?? ? ? ? ?? ?? 298
12.8 变量 λ 和 γ ? ? ? ? ?? ? 303
12.9 带有控制变量的离轨策略资格迹 ? ?? ? ? ? ? ? 304
12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ)? ? ? ? ?? ? ? 308
12.11 采用资格迹保障离轨策略方法的稳定性 ? ? ?? ? 310
12.12 实现中的问题 ? ? ? ?? ? ? ? ? ? ? ? ? ? ? 312
12.13 本章小结 ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? 312
3章 策略梯度方法? ? ?? ? 317
13.1 策略近似及其优势 ? ? ? ? ??? ? 318
13.2 策略梯度定理 ?? ?? 320
13.3 REINFORCE:蒙特卡洛策略梯度 ? ? ? ?? ? ? 322
13.4 带有基线的 REINFORCE ? ? ?? ? ? ? 325
13.5 “行动器-评判器”方法 ? ? ? ? ?? ? ? 327
13.6 持续性问题的策略梯度 ? ? ? ??? ? ? 329
13.7 针对连续动作的策略参数化方法 ? ? ??? ? 332
13.8 本章小结 ? ? ? ? ?? ?? ? ? 333
第III部分 表格型深入研究 ? ? ? ?? ?? ? 337
4章 心理学 ? ?? ? ? ? ? ? ? ? 339
14.1 预测与控制 ? ?? ? ? ? ? ? ? ? ? ? ? 340
14.2 经典条件反射 ? ? ? ?? ? ? ? ? ? 341
14.2.1 阻塞与不错条件反射? ? ? ? ?? ? ? 342
14.2.2 Rescorla-Wagner 模型? ? ? ? ?? ? 344
14.2.3 TD 模型 ? ? ?? ? 347
14.2.4 TD 模型模拟 ? ? ? ?? ? ? ? ? ? 348
14.3 工具性条件反射? ?? ? ? ? ? 355
14.4 延迟强化 ?? ? ? 359
14.5 认知图 ? ? ? ?? ? 361
14.6 习惯行为与目标导向行为 ? ? ?? ? ? ? ?362
14.7 本章小结 ? ? ?? ? ? ? 366
5章 神经科学 ? ? ?? ? ? 373
15.1 神经科学基础 ? ? ? ?? ? ? ? 374
15.2 收益信号、强化信号、价值和预测误差 ? ?? ? ? 375
15.3 收益预测误差假说 ? ? ? ? ? ?? ? ? 377
15.4 多巴胺 ? ? ?? ? ? ? 379
15.5 收益预测误差假说的实验支持? ? ? ?? ? ? 382
15.6 TD 误差/多巴胺对应 ? ?? ? ? ? ? ? 385
15.7 神经“行动器-评判器” ? ?? ? ? ? ? ? 390
15.8 行动器与评判器学习规则 ? ? ? ?? ? ? 393
15.9 享乐主义神经元? ? ? ? ? ? ?? ? ? 397
15.10 集体强化学习 ? ? ?? ? ? ? ? 399
15.11 大脑中的基于模型的算法 ? ?? ? ? 402
15.12 成瘾? ?? ? ? ? ? ? ? 403
15.13 本章小结 ?? ? ? ? ? 404
6 章 应用及案例分析 ? ?? ? ? ? 413
16.1 TD-Gammon ? ? ? ?? ? 413
16.2 Sael 的跳棋程序 ? ? ? ? ? ? ?? 418
16.3 Watson 的每日双倍投注 ? ? ? ? ? ?? ? ? ? ? 421
16.4 优化内存控制 ? ? ? ?? ? ? ? ? 424
16.5 人类级别的视频游戏 ? ? ? ? ? ? ?? ? ? ? 428
16.6 主宰围棋游戏 ? ? ? ? ?? ? ? ? ? 433
16.6.1 AlphaGo ? ? ? ?? ? ? ? ? 436
16.6.2 AlphaGo Zero ? ? ? ?? ? ? ? ?439
16.7 个性化网络服务? ? ?? ? 442
16.8 热气流滑翔 ? ?? ? ? ? ? 446
7章 前沿技术 ? ? ? ? ?? ? ? ? ? ? ? ? ? ? 451
17.1 广义价值函数和辅助任务 ? ? ?? ? 451
17.2 基于选项理论的时序摘要 ? ? ? ? ? ? ? ? ? ?? ? ? 453
17.3 观测量和状态 ? ? ? ? ?? ? ? ? 456
17.4 设计收益信号 ? ?? ? ? ? ? ? ? ? ? 460
17.5 遗留问题 ? ?? ? ? 4
17.6 人工智能的未来? ? ? ? ? ? ?? 467
参考文献 ? ?? ? ? ?? 473

内容简介

《强化学习(第2版)》作为强化学的深度解剖之作,被业内认可为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。

【加】RichardS.Sutton(理查德?桑顿)【美】AndrewG.Barto(安德鲁?巴图) 著 俞凯 等 译

Richard Sutton(理查德?萨顿)
埃德蒙顿 DeepMind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入DeepMind。之前,曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,在马萨诸塞大学做学术研究。
1978年获得斯坦福大学心理学学士学位,1984年获得马萨诸塞大学计算机科学博士学位,加拿大学会院士和人工智能促进会的会士。
主要研究兴趣是在决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。等

本书版出版的20年以来,在机器学习(包括强化学习) 前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。面对这些进展,我们早有对1998年版书进行更新再版的打算,但直到2012年才开始真正着手编纂。第2版的目标与版一致:为强化学习的核心概念与算法提供清晰简明的解释,以供所有相关学科的读者学习。这一版仍然是一本概要介绍性的读物,仍然关注核心的在线学习算法,同时增加了一些近年来日趋重要的话题,并拓展了部分内容,给出了更新的理解。强化学习领域可以延伸出很多不同的方向,但我们并不想包罗万象,在此为可能出现的些许遗漏表示歉意。
第2版记号变化
和版一样,我们没有以严谨的形式化的方式来定义强化学习,也没有采用特别抽象的术语表达,但是为了大家能更深入地理解,有些话题仍然需要用数学来解释。无数学需求的读者可以选择等