大数据丛书TensorFlow强化学习快速入门指南:使用Python动手搭建自学习的智能体

本书特色

[

强化学习是一类重要的机器学习方法,在很多领域得到了成功的应用,*近几年与深度学习结合起来,进一步推动了人工智能的发展?本书首先介绍了强化学习的基本原理,然后介绍典型的强化学习算法,包括时序差分? SARSA? Q-Learning? DeepQ-network? Double DQN?竞争网络结构? Rainbow? Actor-Critic? A2C? A3C? TRPO和PPO等,每种算法基本上利用了主流的开源机器学习框架TensorFlow,使用Python编程进行实现?此外,还介绍了一些上述算法的应用?本书可以使读者快速理解强化学习的基本知识,并通过简单的案例加深对算法的理解?本书适合对强化学习感兴趣的普通高校师生以及相关专业人员阅读?
Copyright ? Packt Publishing 2018First published in the English language under the title “Deep Learning with TensorFlow-SecondEdition- ( 9781788831109)”
Copyright in the Chinese language( simplified characters) ? 2020 China Machine PreesThis title is published in China by China Machine Press with license from Packt Publishing Ltd.This edition is authorized for sale in China only , excluding Hong Kong SAR. Macao SAR and Taiwan.Unauthorized export of this edition is a violation of the Copyright Act. Violation of this Law is subjectto Civil and Criminal Penalties.

]

内容简介

[

强化学习是一类重要的机器学习方法,在很多领域得到了成功的应用,*近几年与深度学习结合起来,进一步推动了人工智能的发展?本书首先介绍了强化学习的基本原理,然后介绍典型的强化学习算法,包括时序差分? SARSA? Q-Learning? DeepQ-network? Double DQN?竞争网络结构? Rainbow? Actor-Critic? A2C? A3C? TRPO和PPO等,每种算法基本上利用了主流的开源机器学习框架TensorFlow,使用Python编程进行实现?此外,还介绍了一些上述算法的应用?本书可以使读者快速理解强化学习的基本知识,并通过简单的案例加深对算法的理解?本书适合对强化学习感兴趣的普通高校师生以及相关专业人员阅读? Copyright ? Packt Publishing 2018First published in the English language under the title “Deep Learning with TensorFlow-SecondEdition- ( 9781788831109)” Copyright in the Chinese language( simplified characters) ? 2020 China Machine PreesThis title is published in China by China Machine Press with license from Packt Publishing Ltd.This edition is authorized for sale in China only , excluding Hong Kong SAR. Macao SAR and Taiwan.Unauthorized export of this edition is a violation of the Copyright Act. Violation of this Law is subjectto Civil and Criminal Penalties.

]

目录

译者序前 言第 1 章 强化学习的启动和运行 // 11.1 为何选择强化学习 // 1阐述强化学习问题 // 21.2 agent 及其环境之间的关系 // 31.2.1 定义 agent 的状态 // 31.2.2 定义 agent 的行为 // 31.2.3 了解策略、价值函数和优势函数 // 41.3 认识回合 // 51.4 认识奖励函数和折扣奖励 // 5奖励 // 61.5 学习马尔可夫决策过程 // 61.6 定义贝尔曼方程 // 71.7 同步策略与异步策略学习 // 71.7.1 同步策略方法 // 71.7.2 异步策略方法 // 81.8 无模型训练和基于模型训练 // 81.9 本书中涉及的算法 // 8总结 // 9思考题 // 9扩展阅读 // 9第 2 章 时序差分、SARSA 与 Q-Learning // 102.1 技术需求 // 102.2 理解 TD 学习 // 10价值函数与状态之间的关系 // 112.3 理解 SARSA 与 Q-Learning // 11IX2.3.1 学习 SARSA // 122.3.2 理解 Q-Learning // 122.4 悬崖徒步与网格世界问题 // 122.4.1 SARSA 下的悬崖徒步 // 132.4.2 Q-Learning 下的悬崖徒步 // 182.4.3 SARSA 下的网格世界 // 20总结 // 22扩展阅读 // 22第 3 章 深度 Q 网络 // 233.1 技术需求 // 233.2 学习 DQN 原理 // 233.3 理解目标网络 // 243.4 了解重放缓冲区 // 253.5 Atari 环境介绍 // 253.5.1 Atari 游戏概述 // 263.5.2 用 TensorFlow 编写 DQN // 273.6 验证 DQN 在 Atari Breakout 上的性能 // 39总结 // 40思考题 // 40扩展阅读 // 41第 4 章 Double DQN、竞争网络结构和 Rainbow // 424.1 技术需求 // 424.2 了解 Double DQN // 434.2.1 编写 DDQN 并训练解决 Atari Breakout 问题 // 434.2.2 在 Atari Breakout 问题中评估 DDQN 的性能 // 444.3 理解竞争网络结构 // 454.3.1 编写竞争网络结构并训练其解决 Atari Breakout 问题 // 474.3.2 在 Atari Breakout 中评估竞争网络结构的性能 // 484.4 了解 Rainbow 网络 // 49DQN 改进 // 504.5 在 Dopamine 上运行 Rainbow 网络 // 50TensorFlow 强化学习快速入门指南—使用 Python 动手搭建自学习的智能体X使用 Dopamine 运行 Rainbow // 52总结 // 53思考题 // 53扩展阅读 // 53第 5 章 深度确定性策略梯度 // 555.1 技术需求 // 555.2 Actor-Critic 算法和策略梯度 // 56策略梯度 // 565.3 深度确定性策略梯度 // 565.3.1 编写 ddpg.py // 575.3.2 编写 AandC.py // 595.3.3 编写 TrainOrTest.py // 645.3.4 编写 replay_buffer.py // 675.4 在 Pendulum-v0 中训练和测试 DDPG // 68总结 // 69思考题 // 70扩展阅读 // 70第 6 章 异步的方法——A3C 和 A2C // 716.1 技术需求 // 716.2 A3C 算法 // 716.2.1 损失函数 // 726.2.2 CartPole and LunarLander // 726.3 A3C 算法在 CartPole 中的应用 // 736.3.1 编写 cartpole.py // 736.3.2 编写 a3c.py // 756.3.3 Worker 类 // 776.3.4 编写 utils.py // 806.3.5 CartPole 训练 // 816.4 A3C 算法在 LunarLander 中的应用 // 826.4.1 编写 lunar.py // 826.4.2 在 LunarLander 上训练 // 826.5 A2C 算法 // 83总结 // 83思考题 // 84扩展阅读 // 84第 7 章 信任区域策略优化和近端策略优化 // 857.1 技术需求 // 857.2 学习 TRPO // 85TRPO 方程 // 867.3 学习 PPO // 86PPO 损失函数 // 867.4 使用 PPO 解决 Mountain Car 问题 // 877.4.1 编写 class_ppo.py // 877.4.2 编写 train_test.py // 917.5 评估性能 // 957.6 马力全开 // 957.7 随机发力 // 96总结 // 97思考题 // 97扩展阅读 // 97第 8 章 深度强化学习在自动驾驶中的应用 // 988.1 技术需求 // 988.2 汽车驾驶模拟器 // 998.3 学习使用 TORCS // 998.3.1 状态空间 // 1008.3.2 支持文件 // 1008.4 训练 DDPG agent 来学习驾驶 // 1018.4.1 编写 ddpg.py // 1018.4.2 编写 AandC.py // 1018.4.3 编写 TrainOrTest.py // 102TensorFlow 强化学习快速入门指南—使用 Python 动手搭建自学习的智能体8.5 训练 PPO agent // 104总结 // 104思考题 // 105扩展阅读 // 105附录 思考题答案 // 10

封面

大数据丛书TensorFlow强化学习快速入门指南:使用Python动手搭建自学习的智能体

书名:大数据丛书TensorFlow强化学习快速入门指南:使用Python动手搭建自学习的智能体

作者:[美]考希克·巴拉克里希南(

页数:106

定价:¥45.0

出版社:机械工业出版社

出版日期:2020-05-01

ISBN:9787111648123

PDF电子书大小:77MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注