定 價(jià):¥59.80
作 者: | 魏慶來(lái),王飛躍 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302589723 | 出版時(shí)間: | 2022-07-01 | 包裝: | |
開(kāi)本: | 16開(kāi) | 頁(yè)數(shù): | 字?jǐn)?shù): |
第1章強(qiáng)化學(xué)習(xí)概論
\n1.1引言
\n1.2強(qiáng)化學(xué)習(xí)的發(fā)展歷程
\n1.3強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀
\n1.4本書(shū)內(nèi)容架構(gòu)
\n參考文獻(xiàn)
\n第2章馬爾可夫決策過(guò)程
\n2.1馬爾可夫決策過(guò)程
\n2.2策略與代價(jià)函數(shù)
\n2.3最優(yōu)策略與最優(yōu)代價(jià)函數(shù)
\n參考文獻(xiàn)
\n第3章動(dòng)態(tài)規(guī)劃
\n3.1動(dòng)態(tài)規(guī)劃的興起
\n3.2動(dòng)態(tài)規(guī)劃基本思想: 多級(jí)決策過(guò)程
\n3.3最優(yōu)性原理與遞推方程
\n3.4離散時(shí)間動(dòng)態(tài)規(guī)劃
\n3.5連續(xù)時(shí)間動(dòng)態(tài)規(guī)劃
\n3.6動(dòng)態(tài)規(guī)劃的挑戰(zhàn)
\n參考文獻(xiàn)
\n第4章蒙特卡洛學(xué)習(xí)方法
\n4.1蒙特卡洛方法背景
\n4.1.1蒙特卡洛方法的由來(lái)
\n4.1.2基于模型的算法與無(wú)模型算法比較
\n4.1.3蒙特卡洛模擬的思路
\n4.2蒙特卡洛預(yù)測(cè)
\n4.2.1初次訪問(wèn)蒙特卡洛預(yù)測(cè)
\n4.2.2歷次訪問(wèn)蒙特卡洛預(yù)測(cè)
\n4.2.3增量計(jì)算技巧
\n4.3蒙特卡洛控制
\n4.3.1初始探索問(wèn)題
\n4.3.2在策方法: ε貪心算法
\n4.3.3脫策算法: 重要性采樣
\n4.4蒙特卡洛強(qiáng)化學(xué)習(xí)算法總結(jié)
\n參考文獻(xiàn)
\n第5章時(shí)序差分學(xué)習(xí)
\n5.1時(shí)序差分學(xué)習(xí)基本概念
\n5.2時(shí)序差分學(xué)習(xí)算法
\n5.3n步回報(bào)
\n5.4TD(λ)算法
\n參考文獻(xiàn)
\n第6章神經(jīng)網(wǎng)絡(luò)
\n6.1神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史
\n6.2MP神經(jīng)元模型
\n6.3前饋神經(jīng)網(wǎng)絡(luò)
\n6.3.1感知機(jī)
\n6.3.2誤差反向傳播算法
\n6.3.3徑向基網(wǎng)絡(luò)
\n6.4其他常見(jiàn)的神經(jīng)網(wǎng)絡(luò)
\n6.4.1ART網(wǎng)絡(luò)
\n6.4.2Hopfield網(wǎng)絡(luò)
\n6.4.3Boltzmann機(jī)
\n參考文獻(xiàn)
\n第7章自適應(yīng)動(dòng)態(tài)規(guī)劃
\n7.1問(wèn)題描述
\n7.2自適應(yīng)動(dòng)態(tài)規(guī)劃的原理
\n7.3自適應(yīng)動(dòng)態(tài)規(guī)劃的分類(lèi)
\n7.3.1啟發(fā)式動(dòng)態(tài)規(guī)劃
\n7.3.2二次啟發(fā)式規(guī)劃
\n7.3.3執(zhí)行依賴(lài)啟發(fā)式動(dòng)態(tài)規(guī)劃
\n7.3.4執(zhí)行依賴(lài)二次啟發(fā)式規(guī)劃
\n7.4基于執(zhí)行依賴(lài)的自適應(yīng)動(dòng)態(tài)規(guī)劃方法
\n7.4.1問(wèn)題描述
\n7.4.2基于執(zhí)行依賴(lài)的自適應(yīng)動(dòng)態(tài)規(guī)劃方法
\n參考文獻(xiàn)
\n第8章策略迭代學(xué)習(xí)方法
\n8.1啟發(fā)式學(xué)習(xí)原理
\n8.2離散時(shí)間策略迭代自適應(yīng)動(dòng)態(tài)規(guī)劃
\n8.2.1策略迭代算法的推導(dǎo)
\n8.2.2策略迭代算法的性質(zhì)
\n8.2.3初始容許控制律的獲得
\n8.2.4仿真實(shí)驗(yàn)
\n8.3連續(xù)時(shí)間策略迭代自適應(yīng)動(dòng)態(tài)規(guī)劃
\n8.3.1連續(xù)時(shí)間策略迭代算法
\n8.3.2連續(xù)時(shí)間策略迭代自適應(yīng)動(dòng)態(tài)規(guī)劃的性能分析
\n參考文獻(xiàn)
\n第9章值迭代學(xué)習(xí)方法
\n9.1值迭代學(xué)習(xí)原理
\n9.2離散時(shí)間值迭代自適應(yīng)動(dòng)態(tài)規(guī)劃
\n9.2.1離散時(shí)間非線性系統(tǒng)的Bellman方程解
\n9.2.2廣義值迭代自適應(yīng)動(dòng)態(tài)規(guī)劃
\n9.3連續(xù)時(shí)間值迭代自適應(yīng)動(dòng)態(tài)規(guī)劃
\n9.3.1問(wèn)題描述
\n9.3.2主要結(jié)果
\n參考文獻(xiàn)
\n第10章Q學(xué)習(xí)方法
\n10.1無(wú)模型強(qiáng)化學(xué)習(xí)
\n10.2Q學(xué)習(xí)原理
\n10.3離散時(shí)間確定性Q學(xué)習(xí)
\n10.3.1問(wèn)題描述
\n10.3.2離散時(shí)間確定性Q學(xué)習(xí)算法的性質(zhì)
\n10.3.3離散時(shí)間確定性Q學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)
\n10.3.4仿真實(shí)驗(yàn)
\n10.4Q學(xué)習(xí)進(jìn)展
\n參考文獻(xiàn)
\n第11章脫策學(xué)習(xí)
\n11.1脫策學(xué)習(xí)的興盛
\n11.2脫策學(xué)習(xí)的基本思想
\n11.2.1問(wèn)題描述
\n11.2.2相關(guān)研究工作
\n11.3脫策學(xué)習(xí)過(guò)程
\n11.3.1脫策強(qiáng)化學(xué)習(xí)
\n11.3.2基于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)
\n11.4脫策學(xué)習(xí)收斂性分析
\n11.5基于脫策強(qiáng)化學(xué)習(xí)的線性H∞控制
\n11.6仿真實(shí)驗(yàn)
\n參考文獻(xiàn)
\n第12章深度強(qiáng)化學(xué)習(xí)
\n12.1深度學(xué)習(xí)基本概念
\n12.1.1深度學(xué)習(xí)的起源
\n12.1.2深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)
\n12.1.3深度學(xué)習(xí)的運(yùn)用環(huán)境
\n12.2深度神經(jīng)網(wǎng)絡(luò)
\n12.2.1深度神經(jīng)網(wǎng)絡(luò)溯源
\n12.2.2梯度下降法
\n12.2.3反向傳播
\n12.2.4動(dòng)量模型
\n12.2.5學(xué)習(xí)律
\n12.3卷積神經(jīng)網(wǎng)絡(luò)
\n12.3.1卷積神經(jīng)網(wǎng)絡(luò)介紹
\n12.3.2卷積層
\n12.3.3采樣層
\n12.3.4分類(lèi)層
\n12.3.5經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
\n12.4循環(huán)神經(jīng)網(wǎng)絡(luò)
\n12.4.1循環(huán)神經(jīng)網(wǎng)絡(luò)介紹
\n12.4.2長(zhǎng)短期記憶模型
\n12.5生成對(duì)抗網(wǎng)絡(luò)
\n12.6深度強(qiáng)化學(xué)習(xí)基本理論
\n12.6.1Q函數(shù)
\n12.6.2策略
\n12.6.3效用值
\n12.6.4模型
\n12.6.5規(guī)劃
\n12.7深度強(qiáng)化學(xué)習(xí)實(shí)際應(yīng)用
\n12.7.1游戲
\n12.7.2機(jī)器人與控制
\n12.7.3自然語(yǔ)言處理
\n12.7.4計(jì)算機(jī)視覺(jué)
\n12.8未來(lái)待解決的問(wèn)題
\n12.8.1采樣效率低下
\n12.8.2難以尋找合適的效用函數(shù)
\n12.8.3局部最優(yōu)陷阱
\n12.8.4過(guò)擬合問(wèn)題
\n12.8.5復(fù)現(xiàn)難題
\n12.8.6適用場(chǎng)景與未來(lái)思考
\n參考文獻(xiàn)
\n第13章強(qiáng)化學(xué)習(xí)展望: 平行強(qiáng)化學(xué)習(xí)
\n13.1自適應(yīng)動(dòng)態(tài)規(guī)劃與深度強(qiáng)化學(xué)習(xí)
\n13.2平行控制理論的基本思想
\n13.3平行動(dòng)態(tài)規(guī)劃方法
\n參考文獻(xiàn)
\n