馬爾可夫決策過程是研究隨機環(huán)境下多階段決策過程優(yōu)化問題的理論工具.在過去的幾十年中,隨著生態(tài)科學、經濟理論、通訊工程以及眾多學科中需要考慮不確定因素和序列決策問題的大量新模型的涌現(xiàn),進一步刺激了馬爾可夫決策過程在理論上和應用領域中長足的發(fā)展.本書從簡單的例子開始,介紹了馬爾可夫決策過程的基本概念、決策過程以及一些常用的基本理論.還介紹了多種最優(yōu)準則,包括有限階段準則、折扣準則、平均準則、權重報酬準則、概率準則等.從模型角度考慮了有限狀態(tài)空間、可數(shù)狀態(tài)空間和一般Borel狀態(tài)空間;從決策時間上來說,考慮了離散時間、連續(xù)時間和半馬氏決策時刻問題.本文還介紹了大量的應用實例以及建模方法.本書可作為高年級大學生和研究生教材,也可作為運籌學、管理科學、信息科學、系統(tǒng)科學以及計算機科學和工程領域的學者和技術人員的參考書.