马尔科夫决策过程
1.1 随机过程
1.1.1 概率论的公理化
见笔记:概率论的公理化.
了解即可,不要求掌握.
1.1.2 随机过程的概念
见笔记:随机过程的概念.
了解什么是随机过程即可,概率特征不需要掌握.
1.1.3 随机过程的分类
见笔记:随机过程的分类.
不看也没关系,独立增量过程、马尔可夫过程、计数过程后面都会重新提到.
1.2 马尔科夫过程
1.2.1 基本概念
见笔记:马尔科夫过程、马尔科夫链.
备注
若随机过程 满足无后效性, 则称为 马尔科夫过程.
若时间空间 为有限集或可列集, 则称为 马尔科夫链 (如伯努利过程).
若时间空间 为连续集, 则称为 连续参数马尔科夫链. (如泊松过程).
若时间空间 , 则称为 扩散过程 (如布朗运动).
对于马尔科夫链, 我们只研究 的情况, 即 .
一步转移概率 为 ,
若一步转移概率与时间无关, 即 , 则称为 齐次马氏链.
以后我们只研究齐次马氏链的情况, 称为 概率转移矩阵.
对于无后效性的说明,
.
可证 与 独立.
但是 与 不一定独立.
马尔科夫链的状态空间 一般为 或其子集.
1.2.2 CK 方程
定义 称 为 步转移概率, 为 步转移概率矩阵. 约定 .
定理 (Chapman-Kolmogorov 方程)
证明
推论 .
1.2.3 极限概率
定义 马氏链的概率分布向量定义为
并称 为马氏链的 初始分布.
备注 .
定义 若定义在 上的概率分布 满足 , 即
则称为马氏链的 平稳分布 (或不变概率测度).
备注
于是平稳分布满足 .
平稳分布可能不存在, 存在也不一定唯一.
定义 若 存在, 则称 为马氏链的 极限分布.
备注
若 极限概率 存在, 则极限分布 存在.
极限分布是平稳分布, 即 .
平稳分布不一定是极限分布. 极限分布若存在则唯一, 而平稳分布则不然.
定理 不可约遍历链有如下性质
极限概率存在, 且 与 无关.
平稳分布唯一存在, 且 .
备注
1.3 马尔科夫奖励过程
1.3.1 基本概念
这里重新表述马尔科夫过程, 并引入马尔科夫奖励过程:
马尔可夫过程 .
简称 MP, 即 Markov Process.
是状态空间, 表示 时刻的状态.
是状态转移概率矩阵, .
状态的 轨迹 即固定事件下随机过程的样本.
马尔科夫决策过程 .
简称 MRP, 即 Markov Reward Process.
在 的基础上, 这里的 是有限集.
称为回报或者奖励, 是 时刻的 立即奖励.
是状态 的奖励函数, 或称 状态奖励.
1.3.2 整体回报与值函数
整体回报
值函数 (状态值函数)
值函数 是整体回报的条件期望.
. (对回报和轨迹的期望)
.(对轨迹的期望)
1.3.2 贝尔曼方程
1.4 马尔科夫决策过程
1.4.1 基本概念
马尔科夫决策过程 简称 MDP, 即 Markov Decision Process.
在马尔科夫奖励过程的基础上, 每次进入一个状态 后, 执行动作 (行为) 后进入下一个状态.
是有限的行为集合.
策略 给出了任一状态下采取行为的概率分布.
这里的策略 与之前提到的初始分布等没有任何关系.
. (概率分布)
表示在 状态下可能采取的行为的集合.
. (即全概率公式)
. (即 )
1.4.2 值函数与贝尔曼期望方程
状态值函数的定义与结论马尔科夫奖励过程的相同.
状态值函数
行为值函数
.
.
由 得到相互关系:
于是代入即得
. (不包含行为值函数的方程)
. (不包含状态值函数的方程)
以上除定义之外均称为贝尔曼期望方程, 其中以最后两个公式最为重要.
1.4.3 最优值函数与贝尔曼最优方程
最优值函数
最优状态值函数 .
最优行为值函数 .
相互关系
最优状态值函数 .
最优行为值函数 .
代入即得
. (不包含最优行为值函数的方程)
. (不包含最优状态值函数的方程)
这两个公式最为重要.
最优策略 即使得状态值函数最大的策略.
最优策略及以下表达式了解即可.
.
.
.
其中示性函数 在 发生 (或为真) 时为 1, 其余情况为 0.