智能車輛強化學習與決策控制技術

定　價：￥74.00

作　者：	呂超，龔建偉，龔乘著
出版社：	北京理工大學出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

當當網 (￥59.60)

ISBN：	9787576341041	出版時間：	2024-05-01	包裝：	平裝-膠訂
開本：	16開	頁數：		字數：

內容簡介

　　強化學習是人工智能領域近年來崛起的新興技術，在機器人、圖像識別、語音識別等多個領域有著重要應用，而自主行為決策則是車輛智能化的重要體現。本書將二者結合起來，從數據采集、模型構建、模型驗證等角度系統性地闡述了一系列基于強化學習的行為決策方法。全書共7章，第1，2章介紹了智能車輛系統的基本構成，以及強化學習技術的基礎知識；第3至6章基于不同強化學習的特點，詳細闡述了經典強化學習、深度強化學習、逆強化學習和分層強化學習在智能車行為決策系統構建中的應用，以及如何測試這些系統；第7章則從更宏觀的角度探討了目前強化學習方法在遷移和泛化方面的缺陷，并介紹了一種可遷移的強化學習決策方法。書中涉及的所有模型和數據均來自于作者團隊的研究成果，每一章都有相關的引申閱讀材料，可供讀者參考。本書可作為智能交通系統、智能車輛、地面無人車輛及移動機器人等相關專業(yè)高年級本科生和研究生的教學資料，也可以作為從事智能決策與控制技術領域研究的科研技術人員的參考資料。

作者簡介

暫缺《智能車輛強化學習與決策控制技術》作者簡介

圖書目錄

第1章智能車輛系統概述………………………………………………………001
1.1 智能車輛介紹…………………………………………………………003
1.1.1 智能車輛架構 …………………………………………………003
1.1.2 智能車輛發(fā)展摘記 ……………………………………………006
1.2 智能車輛的基本組成部分……………………………………………017
1.2.1 環(huán)境感知與場景理解模塊…………………………………017
1.2.2 決策控制模塊 …………………………………………………021
第2章強化學習基礎……………………………………………………………025
2.1 強化學習概述 …………………………………………………………027
2.1.1 強化學習的特點 ……………………………………………………028
2.1.2 強化學習的發(fā)展歷史 …………………………………………028
2.2 馬爾可夫決策過程 ……………………………………………………030
2.2.1 馬爾可夫過程 …………………………………………………031
2.2.2 馬爾可夫決策過程分析 ………………………………………033
2.2.3 貝爾曼方程 …………………………………………………………034
2.3 Q迭代與Q學習………………………………………………………038
2.3.1 Q迭代…………………………………………………………040
2.3.2 時序差分算法 …………………………………………………044
2.3.3Q學習………………………………………………………………045
2.4 函數逼近 ……………………………………………………………………049
2.4.1 函數逼近方法 …………………………………………………049
2.4.2 值函數逼近 ……………………………………………………051
2.5 深度強化學習…………………………………………………………055
2.5.1 深度強化學習原理 ……………………………………………055
2.5.2 深度Q網絡……………………………………………………057
第3章基于經典強化學習的決策控制技術 ……………………………………061
3.1 CARLA仿真平臺介紹 …………………………………………………063
3.2 基于Q學習的決策控制……………………………………………064
3.2.1 縱向決策控制 …………………………………………………064
3.2.2 橫向決策控制 …………………………………………………067
3.2.3 路徑跟蹤 …………………………………………………………069
3.2.4 學習人類駕駛員………………………………………………071
3.3 基于NQL的速度控制 …………………………………………………074
3.3.1 NQL原理 ……………………………………………………………076
3.3.2 NQL模型構建………………………………………………078
3.3.3 NQL方法測試 ……………………………………………………084
第4章基于分層強化學習的決策控制技術 ……………………………………108
4.1 分層強化學習方法及原理……………………………………………109
4.1.1 半馬爾可夫決策過程 …………………………………………109
4.1.2 分層強化學習原理概述………………………………………111
4.2 基于分層強化學習的自主超車決策方法 …………………………111
4.2.1 基于半馬爾可夫決策過程和運動基元的超車決策
模塊…113
4.2.2 基于馬爾可夫決策過程和社會偏好的超車決策模塊 …121
4.3 基于半馬爾可夫決策過程和運動基元的超車決策模塊仿真
實驗 …………………………………………………………………………124
4.3.1 離線運動基元提取結果………………………………………124
4.3.2 超車決策模塊實驗結果及分析 …………………………125
4.4 基于馬爾可夫決策過程和社會偏好的超車決策模塊實車
實驗 …………………………………………………………………………………127
4.4.1 基于智能駕駛平臺的實車數據采集及預處理……………127
4.4.2 超車決策模塊實驗……………………………………………137
第5章基于深度強化學習的決策控制技術 ……………………………………141
5.1 基于DQN的超車場景決策控制模型構建………………………142
5.2 基于 DQN的超車決策實驗……………………………………………143
5.3 基于DDPG交叉路口的縱向決策控制模型構建 …………………145
5.3.1 DDPG算法原理…………………………………………………145
5.3.2 縱向決策問題建模 ……………………………………………148
5.3.3 基元庫構建與運動基元自主學習…………………………150
5.3.4 基于基元庫的最優(yōu)基元選擇 …………………………………154
5.4 交叉路口場景下的縱向決策控制仿真實驗………………………157
5.4.1 交叉路口場景簡述……………………………………………157
5.4.2 離線學習與測試……………………………………………………158
5.4.3 對比實驗結果與分析 …………………………………………159
5.5 交叉路口場景下的縱向決策控制實車實驗 ………………………163
5.5.1 交叉路口下實車數據采集與處理…………………………163
5.5.2 實車數據驅動的交叉路口實驗場景…………………………163
5.6 對比實驗結果與分析…………………………………………………166
5.6.1 子任務離線學習任務 …………………………………………166
5.6.2 測試階段 ………………………………………………………………173
第6章決策的遷移與泛化………………………………………………………177
6.1 遷移學習與認知地圖…………………………………………………178
6.2 基于SR的決策遷移建模……………………………………………179
6.2.1 類人換道場景表征……………………………………………180
6.2.2 基于SR的分層強化學習換道決策 ………………………185
6.2.3 換道場景運動基元 ……………………………………………188
6.2.4 基于場景表征和運動基元的運動規(guī)劃……………………190
6.3 類人可遷移換道模型的可遷移超車實驗測試……………………191
6.3.1 面向超車類人換道場景表征的離線構建…………………191
6.3.2 自主換道超車實驗與結果分析………………………………193
6.4 類人可遷移換道模型的類人實驗測試 ……………………………196
6.4.1 不同風格行為的類人換道場景表征 ………………………196
6.4.2 類人換道運動規(guī)劃實驗結果及分析………………………198
6.4.3 類人換道決策實驗結果及分析………………………………202
參考文獻 ……………………………………………………………………………………206
術語表………………………………………………………………………………212
索引…………………………………………………………………………………………214