第一部分:預備知識及環(huán)境安裝
第1章 深度強化學習概述
1.1 引言
1.2 深度學習
1.3 強化學習
1.4 深度強化學習
1.5 小結
1.6 習題
第2章 環(huán)境的配置
2.1 PyTorch簡介
2.2 PvTorch和TensorFlow
2.3 強化學習的開發(fā)環(huán)境
2.3.1 Anaconda環(huán)境搭建
2.3.2 Anaconda環(huán)境管理
2.3.3 PyTorch的安裝
2.3.4 Jupyter Notebook的安裝
2.3.5 Jupyter Notebook的使用
2.3.6 Gym的安裝
2.3.7 Gym案例
2.4 小結
2.5 習題
第二部分:表格式強化學習
第3章 數(shù)學建模
3.1 馬爾可夫決策過程
3.2 基于模型與無模型
3.3 求解強化學習任務
3.3.1 策略
3.3.2 獎賞與回報
3.3.3 值函數(shù)與貝爾曼方程
3.3.4 最優(yōu)策略與最優(yōu)值函數(shù)
3.4 探索與利用
3.5 小結
3.6 習題
第4章 動態(tài)規(guī)劃法
4.1 策略迭代
4.1.1 策略評估
4.1.2 策略迭代
4.2 值迭代
4.3 廣義策略迭代
4.4 小結
4.5 習題
第5章 蒙特卡洛法
5.1 蒙特卡洛法的基本概念
5.1.1 MC的核心要素
5.1.2 MC的特點
5.2 蒙特卡洛預測
5.3 蒙特卡洛評估
5.4 蒙特卡洛控制
5.4.1 基于探索始點的蒙特卡洛控制
5.4.2 同策略蒙特卡洛控制
5.4.3 異策略與重要性采樣
5.4.4 蒙特卡洛中的增量式計算
5.4.5 異策略蒙特卡洛控制
5.5 小結
5.6 習題
第6章 時序差分法
6.1 時序差分預測
6.2 時序差分控制圓
6.2.1 Sarsa算法
6.2.2 Q-Learning算法
6.2.3 期望sarsa算法
6.3 最大化偏差與Double Q-Learning
6.3.1 最大化偏差
6.3.2 Double Q-Learning
6.3.3 Double Q-Learning
6.4 DP、MC和TD算法的關系
6.4.1 窮舉式遍歷與軌跡采樣
6.4.2 期望更新與采樣更新
6.5 小結
6.6 習題
第7章 n-步時序差分法
7.1.l n-步TD預測及資格跡回
7.1.1 n-步TD預測
7.1.2 前向TD(λ)算法
7.1.3 后向TD(λ)算法
7.2 n-步TD控制及其資格跡實現(xiàn)
7.2.1 同策略n-步Sarsa算法
7.2.2 Sarsa(λ)算法
7.2.3 異策略n-步Sarsa算法
7.2.4 n-步Tree Backup算法
7.3 小結
7.4 習題
第8章 規(guī)劃和蒙特卡洛樹搜索
8.1 模型、學習與規(guī)劃回
8.1.1 模型
8.1.2 學習
8.1.3 規(guī)劃
8.2 Dyna-Q結構及其算法改進回
8.2.1 Dyna-Q架構
8.2.2 優(yōu)先遍歷
8.2.3 模擬模型的錯誤性
8.3 決策時間規(guī)劃
8.3.1 啟發(fā)式搜索
8.3.2 預演算法
8.3.3 蒙特卡洛樹搜索
8.4 小結
8.5 習題
第三部分:深度強化學習
第9章 深度學習
9.1 傳統(tǒng)神經網絡圓
9.1.1 感知器神經元
9.1.2 激活函數(shù)
9.2 反向傳播算法
9.2.1 前向傳播
9.2.2 權重調整
9.2.3 BP算法推導
9.3 卷積神經網絡
9.3.1 卷積神經網絡核心思想
9.3.2 卷積神經網絡結構
9.4 小結
9.5 習題
第10章 PyTorch與神經網絡
10.1 PyTorch扣的Tensor
10.1.1 直接構造法
10.1.2 間接轉換法
10.1.3 Tensor的變換
10.2 自動梯度計算
10.2.1 標量對標量的自動梯度計算
10.2.2 向量對向量的自動梯度計算
10.2.3 標量對向量(或矩陣)的自動梯度計算
10.3 神經網絡的模型搭建和參數(shù)優(yōu)化
10.3.1 模型的搭建
10.3.2 激活函數(shù)
10.3.3 常用的損失函數(shù)
10.3.4 模型的保存和重載
10.4 小結
10.5 習題
第ll章 深度Q網絡
11.1 DQN算法
11.1.1 核心思想
11.1.2 訓練算法
11.1.3 實驗結果與分析
11.2 Double DQN算法
11.2.1 核心思想
11.2.2 實驗結果與分析
11.3 Prioritized DQN
11.3.1 核心思想
11.3.2 訓練算法
11.3.3 實驗結果與分析
11.4 Dueling DQN
11.4.1 訓練算法
11.4.2 實驗結果與分析
11.5 小結
11.6 習題
第12章 策略梯度法
12.1 隨機策略梯度法
12.1.1 梯度上升算法
12.1.2 策略梯度法與值函數(shù)逼近法的比較
12.2 策略優(yōu)化方法
12.2.1 情節(jié)式策略目標函數(shù)
12.2.2 連續(xù)式策略目標函數(shù)
12.2.3 策略梯度定理
12.3 策略表達形式
12.3.1 離散動作空間策略參數(shù)化
12.3.2 連續(xù)動作空間策略參數(shù)化
1