强化学习精要:核心算法与TENSORFLOW实现
相关资料
[
近年来强化学习在学术界和工业界都受到了极大关注,很多工业界的巨头都在不断探索强化学习的实际应用。滴滴出行作为全球*的移动出行公司,已经把强化学习应用到多个业务场景中,帮助用户和司机解决出行问题,构建城市智慧大脑。本书介绍了强化学习的经典算法及近年来发展中的一些卓越成果,同时将理论联系实际,深入分析了这些算法的具体实现。作为一本内容丰富的强化学习科普书籍,希望无论是强化学习领域的初学者还是有经验的研发人员,均可从书中得到收获。
—— 王征,滴滴出行AI Labs时空数据组负责人
本书的特色之一是紧跟强化学习技术发展的前沿,从基于值函数的算法、基于策略梯度的算法,一直介绍到生成对抗模仿学习算法,内容涵盖了近年来深度强化学习研究的众多突破性算法;特色之二是结合开源的深度学习框架TensorFlow、强化学习仿真框架Gym及在这些框架上实现的算法集合Baselines,针对性地讲解了核心算法的代码实现,出色地将算法理论和实践结合起来。对强化学习领域的科研人员而言,这是一本不可多得的优秀读物。
—— 章宗长,苏州大学副教授
机器学习特别是强化学习,是近年和将来的学术研究重点,也是业界热点问题。本书作者通过对强化学习的概述和用Python实现的具体实例的讲解,为读者指明了一条通过编程理解和实践强化学习算法的道路。本书适合刚开始接触强化学习的初学者入门或者有经验的从业者巩固和借鉴。
—— 李可,美国微软公司高级数据科学家
这几年,机器学习因为深度学习的突飞猛进有了激动人心的进展,强化学习技术由于建模和环境的互动及延迟的反馈获得了较高的学术地位。本书全面而实用,对强化学习感兴趣的朋友来说是难得的教材。
—— 吴双,依图科技研究科学家
]
本书特色
[
《强化学习精要:核心算法与TensorFlow 实现》用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现,为读者构建了一个完整的强化学习知识体系,同时介绍了这些算法的具体实现方式。从基本的马尔可夫决策过程,到各种复杂的强化学习算法,读者都可以从本书中学习到。本书除了介绍这些算法的原理,还深入分析了算法之间的内在联系,可以帮助读者举一反三,掌握算法精髓。书中介绍的代码可以帮助读者快速将算法应用到实践中。
]
内容简介
[
√从原理剖析到算法精髓,再到TensorFlow代码实现
√为读者构建了一个完整的强化学习知识体系
√介绍算法的原理,分析算法之间的内在联系,帮助读者掌握算法精髓
√掌握用强化学习思想解决实际问题的能力
√配书源代码供下载
]
作者简介
[
冯超,毕业于中国科学院大学,滴滴出行AI Labs时空数据组专家算法工程师,曾任小猿搜题算法负责人之一。自2016年起在知乎开设技术专栏《无痛的机器学习》,发表与深度学习和强化学习相关的文章,文章以轻松幽默的语言、细致深入的分析为特点,得到了广泛的关注。曾撰写深度学习进阶领域口碑技术书《深度学习轻松学:核心算法与视觉实践》。
]
目录
目录**部分强化学习入门与基础知识1 引言21.1 强化学习的概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.1 巴浦洛夫的狗. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.2 俄罗斯方块. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 站在被实验者的角度看问题. . . . . . . . . . . . . . . . . . . . . . . . . 51.3 强化学习效果的评估. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.1 不断试错. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.2 看重长期回报. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.4 强化学习与监督学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4.1 强化学习与监督学习的本质. . . . . . . . . . . . . . . . . . . . . 91.4.2 模仿学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.5 强化学习的实验环境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.5.1 Arcade Learning Environment . . . . . . . . . . . . . . . . . . . . . 121.5.2 Box2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.5.3 MuJoCo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.5.4 Gym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.6 本书的主要内容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.7 参考资料. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 数学与机器学习基础172.1 线性代数基础. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 对称矩阵的性质. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2.1 特征值与特征向量. . . . . . . . . . . . . . . . . . . . . . . . . . 212.2.2 对称矩阵的特征值和特征向量. . . . . . . . . . . . . . . . . . . . 222.2.3 对称矩阵的对角化. . . . . . . . . . . . . . . . . . . . . . . . . . 232.3 概率论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.1 概率与分布. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.2 *大似然估计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 重要性采样. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.5 信息论基础. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.6 KL 散度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.7 凸函数及其性质. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.8 机器学习的基本概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.9 机器学习的目标函数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.10 总结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 优化算法473.1 梯度下降法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.1.1 什么是梯度下降法. . . . . . . . . . . . . . . . . . . . . . . . . . 473.1.2 优雅的步长. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2 动量算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.3 共轭梯度法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.3.1 精妙的约束. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.3.2 共轭. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.3.3 优化步长的确定. . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.3.4 Gram-Schmidt 方法. . . . . . . . . . . . . . . . . . . . . . . . . . 643.3.5 共轭梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653.4 自然梯度法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.4.1 基本概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.4.2 Fisher 信息矩阵. . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.4.3 自然梯度法目标公式. . . . . . . . . . . . . . . . . . . . . . . . . 763.5 总结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774 TensorFlow 入门784.1 TensorFlow 的基本使用方法. . . . . . . . . . . . . . . . . . . . . . . . . 784.2 TensorFlow 原理介绍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824.2.1 创建变量的scope . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.2.2 创建一个Variable 背后的故事. . . . . . . . . . . . . . . . . . . . 894.2.3 运算操作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.2.4 tf.gradients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964.2.5 Optimizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.2.6 TensorFlow 的反向传播技巧. . . . . . . . . . . . . . . . . . . . . 1064.2.7 arg_scope 的使用. . . . . . . . . . . . . . . . . . . . . . . . . . . 1094.3 TensorFlow 的分布式训练. . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.3.1 基于MPI 的数据并行模型. . . . . . . . . . . . . . . . . . . . . . 1144.3.2 MPI 的实现:mpi_adam . . . . . . . . . . . . . . . . . . . . . . . . 1214.4 基于TensorFlow 实现经典网络结构. . . . . . . . . . . . . . . . . . . . . 1224.4.1 多层感知器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1224.4.2 卷积神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1244.4.3 循环神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1264.5 总结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1294.6 参考资料. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295 Gym 与Baselines 1305.1 Gym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.1.1 Gym 的安装. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.1.2 Gym 的基本使用方法. . . . . . . . . . . . . . . . . . . . . . . . . 1325.1.3 利用Gym 框架实现一个经典的棋类游戏:蛇棋. . . . . . . . . . 1345.2 Baselines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1385.2.1 Baselines 中的Python 3 新特性. . . . . . . . . . . . . . . . . . . . 1395.2.2 tf_util . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1415.2.3 对Gym 平台的扩展. . . . . . . . . . . . . . . . . . . . . . . . . . 1425.3 总结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1446 强化学习基本算法1456.1 马尔可夫决策过程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1456.1.1 MDP:策略与环境模型. . . . . . . . . . . . . . . . . . . . . . . . 1456.1.2 值函数与Bellman 公式. . . . . . . . . . . . . . . . . . . . . . . . 1476.1.3 “表格式”Agent . . . . . . . . . . . . . . . . . . . . . . . . . . . 1516.2 策略迭代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1536.2.1 策略迭代法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1536.2.2 策略提升的证明. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1596.2.3 策略迭代的效果展示. . . . . . . . . . . . . . . . . . . . . . . . . 1606.3 价值迭代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1626.3.1 N 轮策略迭代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1626.3.2 从动态规划的角度谈价值迭代. . . . . . . . . . . . . . . . . . . . 1656.3.3 价值迭代的实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1676.4 泛化迭代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1686.4.1 两个极端. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1686.4.2 广义策略迭代法. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1696.4.3 泛化迭代的实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1706.5 总结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171第二部分*优价值算法7 Q-Learning 基础1737.1 状态转移概率:从掌握到放弃. . . . . . . . . . . . . . . .
封面
书名:强化学习精要:核心算法与TENSORFLOW实现
作者:冯超
页数:371
定价:¥80.0
出版社:电子工业出版社
出版日期:2018-06-01
ISBN:9787121340000
PDF电子书大小:128MB 高清扫描完整版
本文标题:《强化学习精要:核心算法与TENSORFLOW实现》PDF下载
资源仅供学习参考,禁止用于商业用途,请在下载后24小时内删除!