图书介绍

强化学习理论及应用pdf电子书版本下载

张汝波编著著
出版社：哈尔滨：哈尔滨工程大学出版社
ISBN：7810731424
出版时间：2001
标注页数：287页
文件大小：34MB
文件页数：300页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：6f154864205bc1c91813bad901ecfb4c

下载说明

强化学习理论及应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

1 绪论 1

1.1 学习的定义 1

1.2 连接主义学习的分类 3

1.3 强化学习的基本概念 4

1.4 强化学习的发展历史及国内外研究状况 5

1.5 强化学习的应用领域 11

1.6 强化学习存在的问题及研究方向 14

2 强化学习系统的结构和实现方法 18

2.1 强化学习的定义及分类 18

2.2 强化学习Agent与环境的关系 21

2.3 强化学习的目标和奖励信号 24

2.4 强化学习系统的回报值 26

2.5 阶段性任务和持续性任务的统一描述 28

2.6 强化学习系统的结构模型 30

2.7 输入模块的实现方法 32

2.8 强化模块的实现方法 33

2.9 策略模块的实现方法 34

3 强化学习相关理论及学习算法 43

3.1 马尔可夫决策过程 43

3.2 动态规划方法 54

3.3 蒙特卡罗算法 61

4 瞬时差分法 69

4.1 瞬时差分法的基本原理 70

4.2 瞬时差分预测算法，与动态规划、蒙特卡罗方法的区别 72

4.3 瞬时差分法与监督学习方法 76

4.4 瞬时差分法的预测原理 78

4.5 无限折扣预测问题 81

4.6 采用神经网络实现TD法的结构信度分配 82

4.7 TD法的收敛性分析 84

4.8 TD学习算法的Worst-Case分析 90

4.9 截断瞬时差分法 100

5 自适应启发评价方法 104

5.1 自适应启发评价方法的基本原理 104

5.2 自适应启发评价学习系统的一般结构 116

5.3 离散动作AHC算法的神经网络实现 118

5.4 连续动作的强化学习问题 122

6 Q-学习 126

6.1 Q-学习的基本算法 126

6.2 Q-学习的收敛性及收敛速度 128

6.3 Q-学习系统的结构及神经网络实现 135

6.4 Sarsa-算法 139

6.5 快速在线Q（λ）算法 140

6.6 HQ-学习算法 148

7 资格迹 156

7.1 资格迹的基本原理 156

7.2 n步TD预测问题 159

7.3 TD（λ）的前向估计 161

7.4 TD（λ）的后向估计 164

7.5 前向估计和后向估计的等价性 167

7.6 Sarsa（λ）算法 169

7.7 Q（λ）算法 171

7.8 替换迹 174

8 提高强化学习速度的方法 176

8.1 利用经验回放技术提高强化学习速度 176

8.2 利用环境模型来提高强化学习速度 179

8.3 输入空间的量化方法 188

8.4 采用局部逼近神经网络实现强化学习系统 190

9 强化学习控制系统 192

9.1 学习控制问题 192

9.2 倒摆控制系统 200

9.3 强化学习在过程控制中的应用 205

9.4 强化学习和PI调节器在加热绕组控制中的应用 209

9.5 动态系统的强化学习控制器 217

10 强化学习在智能机器人中的应用 223

10.1 智能机器人局部路径规划问题 224

10.2 强化学习在水下机器人避碰行为学习的应用 227

10.3 强化学习在陆上移动机器人局部路径规划中的应用 236

11 强化学习的其它应用 252

11.1 TD-Gammon 252

11.2 塞缪尔的Checkers Player程序 257

11.3 空中飞人 260

11.4 电梯调度 263

11.5 动态信道分配 267

参考文献 271