一、回顾 一、值函数、贝尔曼方程、贝尔曼最优方程 二、最优值函数 三、ADP 3.1 VI 3.2 PI 四、ADP可以使用的条件 五、Q函数 六、解决问题的方案 (指的是解决“四 ADP可以使用的条件”中的三个问题) 二、期望的计算 一、Markov过程的便利性 1.1 平稳分布 1.1.1 一定存在平稳分布 1.1.2 P为分块矩阵↔平稳分布不唯一 1.2 平稳分布的便利性 二、随机逼近方法 2.1 增量更新与学习率 2.2 随机逼近 2.2.1 不动点迭代的形式θ=f(θ) 2.2.2 求解0=f(θ) 2.2.3 SGD 2.2.3 强化学习:DP在随机逼近框架下的实现