马尔科夫决策过程

1.1 随机过程

1.1.1 概率论的公理化

见笔记:概率论的公理化.

了解即可,不要求掌握.

1.1.2 随机过程的概念

见笔记:随机过程的概念.

了解什么是随机过程即可,概率特征不需要掌握.

1.1.3 随机过程的分类

见笔记:随机过程的分类.

不看也没关系,独立增量过程、马尔可夫过程、计数过程后面都会重新提到.

 

1.2 马尔科夫过程

1.2.1 基本概念

见笔记:马尔科夫过程马尔科夫链.

备注

 

1.2.2 CK 方程

定义 pij(m)=P{Xn+m=jXn=i}m 步转移概率, P(m)=(pij(m))m 步转移概率矩阵. 约定 pii(0)=0.

定理 (Chapman-Kolmogorov 方程)

m,nN+:P(m+n)=P(m)P(n).
证明

推论 nN+:P(n)=P(n1)P(1)=(P(1))n=Pn.

 

1.2.3 极限概率

定义 马氏链的概率分布向量定义为

πi(n)=P{Xn=i},π(n)=(π1(n),,πi(n)).

并称 π(0) 为马氏链的 初始分布.

备注 π(n)=π(0)Pn.


定义 若定义在 S 上的概率分布 π={π1,π2,} 满足 π=πP, 即

πj=iSπipij,

则称为马氏链的 平稳分布 (或不变概率测度).

备注


定义 limnπ(n)=π 存在, 则称 π 为马氏链的 极限分布.

备注


定理 不可约遍历链有如下性质

  1. 极限概率存在, 且 limnpij(n)i 无关.

  2. 平稳分布唯一存在, 且 i,jS:πj=limnpij(n).

备注

 

1.3 马尔科夫奖励过程

1.3.1 基本概念

这里重新表述马尔科夫过程, 并引入马尔科夫奖励过程:

 

1.3.2 整体回报与值函数

 

1.3.2 贝尔曼方程

 

1.4 马尔科夫决策过程

1.4.1 基本概念

马尔科夫决策过程 S,A,P,R,γ 简称 MDP, 即 Markov Decision Process.

马尔科夫奖励过程的基础上, 每次进入一个状态 sS 后, 执行动作 (行为) aA 后进入下一个状态.

 

1.4.2 值函数与贝尔曼期望方程

状态值函数的定义与结论马尔科夫奖励过程的相同.

以上除定义之外均称为贝尔曼期望方程, 其中以最后两个公式最为重要.

 

1.4.3 最优值函数与贝尔曼最优方程