图书介绍
强化学习理论及应用pdf电子书版本下载
- 张汝波编著 著
- 出版社: 哈尔滨:哈尔滨工程大学出版社
- ISBN:7810731424
- 出版时间:2001
- 标注页数:287页
- 文件大小:34MB
- 文件页数:300页
- 主题词:
PDF下载
下载说明
强化学习理论及应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
1 绪论 1
1.1 学习的定义 1
1.2 连接主义学习的分类 3
1.3 强化学习的基本概念 4
1.4 强化学习的发展历史及国内外研究状况 5
1.5 强化学习的应用领域 11
1.6 强化学习存在的问题及研究方向 14
2 强化学习系统的结构和实现方法 18
2.1 强化学习的定义及分类 18
2.2 强化学习Agent与环境的关系 21
2.3 强化学习的目标和奖励信号 24
2.4 强化学习系统的回报值 26
2.5 阶段性任务和持续性任务的统一描述 28
2.6 强化学习系统的结构模型 30
2.7 输入模块的实现方法 32
2.8 强化模块的实现方法 33
2.9 策略模块的实现方法 34
3 强化学习相关理论及学习算法 43
3.1 马尔可夫决策过程 43
3.2 动态规划方法 54
3.3 蒙特卡罗算法 61
4 瞬时差分法 69
4.1 瞬时差分法的基本原理 70
4.2 瞬时差分预测算法,与动态规划、蒙特卡罗方法的区别 72
4.3 瞬时差分法与监督学习方法 76
4.4 瞬时差分法的预测原理 78
4.5 无限折扣预测问题 81
4.6 采用神经网络实现TD法的结构信度分配 82
4.7 TD法的收敛性分析 84
4.8 TD学习算法的Worst-Case分析 90
4.9 截断瞬时差分法 100
5 自适应启发评价方法 104
5.1 自适应启发评价方法的基本原理 104
5.2 自适应启发评价学习系统的一般结构 116
5.3 离散动作AHC算法的神经网络实现 118
5.4 连续动作的强化学习问题 122
6 Q-学习 126
6.1 Q-学习的基本算法 126
6.2 Q-学习的收敛性及收敛速度 128
6.3 Q-学习系统的结构及神经网络实现 135
6.4 Sarsa-算法 139
6.5 快速在线Q(λ)算法 140
6.6 HQ-学习算法 148
7 资格迹 156
7.1 资格迹的基本原理 156
7.2 n步TD预测问题 159
7.3 TD(λ)的前向估计 161
7.4 TD(λ)的后向估计 164
7.5 前向估计和后向估计的等价性 167
7.6 Sarsa(λ)算法 169
7.7 Q(λ)算法 171
7.8 替换迹 174
8 提高强化学习速度的方法 176
8.1 利用经验回放技术提高强化学习速度 176
8.2 利用环境模型来提高强化学习速度 179
8.3 输入空间的量化方法 188
8.4 采用局部逼近神经网络实现强化学习系统 190
9 强化学习控制系统 192
9.1 学习控制问题 192
9.2 倒摆控制系统 200
9.3 强化学习在过程控制中的应用 205
9.4 强化学习和PI调节器在加热绕组控制中的应用 209
9.5 动态系统的强化学习控制器 217
10 强化学习在智能机器人中的应用 223
10.1 智能机器人局部路径规划问题 224
10.2 强化学习在水下机器人避碰行为学习的应用 227
10.3 强化学习在陆上移动机器人局部路径规划中的应用 236
11 强化学习的其它应用 252
11.1 TD-Gammon 252
11.2 塞缪尔的Checkers Player程序 257
11.3 空中飞人 260
11.4 电梯调度 263
11.5 动态信道分配 267
参考文献 271