《深度强化学习算法与实践基于PyTorch的实现张校捷著;张校计算机与互联网》[97M]百度网盘|pdf下载|亲测有效
《深度强化学习算法与实践基于PyTorch的实现张校捷著;张校计算机与互联网》[97M]百度网盘|pdf下载|亲测有效

深度强化学习算法与实践基于PyTorch的实现张校捷著;张校计算机与互联网 pdf下载

出版社 安安图书专营店
出版年 2022-04
页数 390页
装帧 精装
评分 8.6(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供深度强化学习算法与实践基于PyTorch的实现张校捷著;张校计算机与互联网电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

  • 作者:张校捷著;张校
  • 著:张校捷著;张校
  • 装帧:平装
  • 印次:1
  • 定价:108.00
  • ISBN:9787121429729
  • 出版社:工业出版社
  • 开本:16开
  • 印刷时间:暂无
  • 语种:暂无
  • 出版时间:2022-04-01
  • 页数:256
  • 外部编号:1202600358
  • 版次:1
  • 成品尺寸:暂无

章强化学习简介11.1强化学习的历史11.1.1人工智能的历史11.1.2强化学习和人工智能的关系41.2强化学习基本概念81.2.1智能体相关概念81.2.2马尔可夫决策过程91.2.3动作价值函数和状态-动作价值函数111.3强化学习算法的分类121.3.1基于模型的(Model-Based)和无模型的(Model-Free)131.3.2基于策略的(Policy-Based)和基于价值的(Value-Based)131.3.3在线(On-policy)算法和离线(Off-policy)算法131.4深度强化学习基本概念141.5强化学习的优缺点151.6蒙特卡洛梯度估计151.7总结19第2章深入了解强化学习202.1强化学习基本要素202.1.1马尔可夫决策过程和回溯图202.1.2贪心策略和策略222.1.3策略的迭代算法242.2强化学习的探索和利用262.3策略迭代和价值迭代322.3.1策略迭代322.3.2价值迭代332.4贝尔曼方程及其应用352.5总结37第3章强化学习环境383.1简单的强化学习环境393.1.1网格世界(GridWorld)393.1.2多臂(Multi-armedBandit)403.1.3井字棋(Tic-Tac-Toe)403.2OpenAIGym环境473.2.1Gym环境的安装和基本接口473.2.2Gym的经典控制环境503.2.3Gym的Atari强化学习环境533.2.4Gym的MuJoCo环境553.2.5自定义Gym强化学习环境573.3DeepMindLab强化学习环境603.4强化学习环境633.4.1PySC2强化学习环境633.4.2OpenSpiel强化学习环境663.5深度强化学习框架简介683.5.1Dopamine框架683.5.1ReAgent框架703.6总结71第4章深度函数强化学习算法724.1经典深度网络算法(DN)724.1.1DN算理背景734.1.2DN模型结构754.1.3DN模型的输入784.1.4DN模型的训练804.1.5结合DN算法的采样和模型的训练824.2双网络学习算法(Double-Learning)844.2.1算法原理844.2.2算法实现8.2.3算法效果884.3优先经验回放(PrioritizedExperienceReplay)894.3.1算法原理894.3.2算法实现924.3.3算法效果954.4竞争DN算法(DuelDN)9.4.1算法原理984.4.2算法实现994.4.3算法效果1024.5分布形式的DN算法(DistributionalDN)34.5.1分类DN模型1034.5.2分类DN模型算法实现10..分类DN模型算法效果1104.5.4分位数回归DN模型1114.5.5分位数回归DN模型算法实现1124.5.6分位数回归DN模型算法效果1154.5.7分类DN模型小结11.6算法(Rainbw)174.6.1算法对DN的优化1174.6.2算法的部分实现1204.6.3算法的模型效果1254.7总结128第5章策略梯度强化学习算法1295.1经典策略梯度算法(VPG)1305.1.1算法原理1305.1.2基于离散动作空间算法的模型实现1325.1.3基于离散动作空间算法的运行结果1375.1.4基于连续动作空间算法的实现1385.1.5基于连续动作空间算法的运行结果1435.1.6小结1445.2优势演员-评论家算法(A2C和A3C)1455.2.1算法原理1455.2.2泛化优势估计(GeneralizedAdvantageEstimation)1475.2.3熵正则化方法1495.2.4优势演员-评论家算法的实现(离散动作空间)1495.2.5优势演员-评论家算法运行效果(离散动作空间)1585.2.6算法实现(连续动作空间)1585.2.7运行效果(连续动作空间)1605.2.8异步优势演员-评论家算法的实现1605.2.9异步优势演员-评论家算法的效果1.置信区间策略优化算法1655.3.1算法原理1665.3.2近端策略优化算法的实现1725.3.3近端策略优化算法的效果(离散动作空间)1745.4克罗内克分解近似置信区间算法(ACKTR)1755.4.1算法原理1755.4.2算法实现1795.4.3算法效果1835.5软演员-评论家算法(SAC)1845.5.1算法的基本原理1845.5.2算法的实现(连续动作空间)1865.5.3算法的效果(连续动作空间)1935.6总结194第6章强化学习算法1956.1噪声网络(NoisyNetworks)1956.1.1噪声网络的原理1956.1.2噪声网络的实现1976.1.3噪声网络的效果2016.2深度确定策略梯度算法(DDPG)2036.2.1算法原理2036.2.2算法实现2056.2.3算法效果2096.3双延迟深度确定策略梯度算法(TD3)2106.3.1算法原理2106.3.2算法实现2116.3.3算法效果213.蒙特卡洛树搜索(MCTS)214..算法原理214..2算法的基本步骤215..算法使用的模型219..4算法的博弈树表示221..算法的搜索执行过程2226.5总结225第7章深度强化学习在实践中的应用2267.1神经网络结构搜索(NAS)2267.1.1算法原理2267.1.2算法效果2297.1.3总结2307.2超分辨率模型(SRGAN)2307.2.1算法原理2317.2.2总结2327.3序列生成模型(SeqGAN)2337.3.1算法原理2337.3.2总结2357.4基于深度强化学习的系统2357.4.1系统的强化学习环境构建2367.4.2系统的强化学习算法2377.4.3总结2387.5基于深度强化学习的交易系统2397.5.1算法原理2397.5.2总结2417.6总结241附录A本书使用的数学符号242参考文献244

张校捷,Shopee资深机器学习,负责系统的算法实现和优化。目前主要使用的技术栈是深度学习框架后端的C/C++/CUDA,以及深度学习框架前端的Python。熟悉主流的深度学习框架,如PyTorch和TensorFlow,同时熟悉计算机视觉、自然语言处理和系统方面的深度学习算法。作者曾多次作为专题演讲嘉宾,受邀参加Google、PyCon和CSDN主办的技术大会。