动态规划 Day 11 - Abstract Dynamic Programming

文摘   2024-06-11 00:01   英国  

本书来自QuantEcon系列Dynamic Programming VOLUME I: FINITE STATES。 https://dp.quantecon.org/

再来一节纯理论,主要讨论之前RDP没有涉及到的convergence的理论。

一些定义

首先先来一点定义!

partially ordered set V和self-map T on V,记其不动点为 , 那么称T为

  • upward stable 如果
  • downward stable 如果
  • order stable 如果upward and downward stable

如下图为order stable

Lemma: order-preserving self-map T,如果T是globally stable on V,那么 T order stable

order dual   满足

Lemma:  S order stable on V iff 𝑆 is order stable on  

Abstract Dynamic Programs

由之前的RDP可以知道,其完全由一组policy operators决定。选择所有policy operators中使得效用最大的。在这里我们也从这个出发来定义Abstract Dynamic Programs:

Abstract Dynamic Programs: 满足

  • 为partially ordered set
  • 为一组self-maps on V
  • 对于每个 , 都有一个 least and greatest element

这里第三条我们需要存在最小和最大是因为我们想要讨论min和max,如果只讨论max那么只需要greatest element存在就好。

依然,我们定义

policy operators: 每个

v-greedy: policy 满足对于给定v有

MDP写为ADP: 对于MDP , policy operators为

对应的ADP为 . 称之为ADP generated by M

RDP写为ADP: 对于RDP , policy operators为

对应的ADP为 . 称之为ADP generated by

Optimality

接下来要讨论ADP的最优化条件了。和RDP一样,我们先做以下定义

-value function: 的不动点。

well-posed 每个 都有唯一不动点。

Bellman operator:  

ADP 可以有以下一些性质:

  • finite: 如果 为有限集
  • order stable: 如果每个 都order stable
  • max-stable: 如果 order stable 并且 T 至少有一个不动点。

Proposition: 如果 order stable 并且 finite, 那么也 max-stable

Corollary: 对于一个ADP generated by  RDP ,如果   globally stable, 那么对应的ADP max-stable.

value function 最大的(如果存在)

Bellman’s principle of optimality:

然后就是最重要的, 有解的条件以及和bellman的关系,与RDP类似,我们有:

Theorem: 如果   满足finite和order stable,那么有以下结论

相比于RDP的条件,这里的条件又放松了些。

Proposition: 如果   max-stable, 那么以上 (i)-(iv)都成立

Optimality Results for RDPs

这里来讨论一下之前用OPI来求解RDP的一些性质。

Lemma: 如果 ,那么有

这说明只要随便给定一个policy,算出它对应的 -value function, 然后一直迭代下去就可以得到 value function了。

Lemma:  对于OPI,循环m次求解 value,定义那么有

Lemma: 对于任意 :

Lemma: 对于任意 , 记

如果存在k 使得 ,那么

Lemma 如果 , 那么存在 使得

Isomorphic Dynamic Programs

有时候看起来不同的两个问题是等价的。比如之前RDP问题homeomorphisms来判断两个RDP之间的关系,一个stable另一个也stable。

order conjugate 如果存在从 的双射 ,并且F是order isomorphism:

Lemma: 如果 order conjugate under F,并且 的唯一不动点是 ,那么   的唯一不动点是  。 并且如果一个是order stable,那么另一个也是order stable

isomorphic: 两个ADP isomorphic under F,如果他们有一样的policy set ,并且对于任意 policy,  order conjugate

Theorem: 对于两个isomorphic的ADP,有以下结论:

两个ADP最优化性质完全相同,一个有解另一个也有,并且解之间的关系是F。

anti-isomorphic: 与之前定义类似,两个ADP anti-isomorphic under F,如果他们有一样的policy set ,并且对于任意 policy,并且双射 F 满足 anti-isomorphism

Theorem 两个ADPanti-isomorphic under 𝐹,那么以下结论成立:

与之前结论依然类似,一个有解另一个也有,只不过一个是最大值,另一个是最小值。

一个应用 Epstein–Zin

回到Epstein–Zin例子,来看一下isomorphic怎么用:

policy operator 为

现在将原来的问题稍微变形一下,记

那么可以得到

  • 时, , isomorphic.
  • 时, , anti-isomorphic.

Subordinate ADPs

在之前有讨论到同一个MDP问题下可以用三个不同的operator求解:regular MDP Bellman equation, Q-factor Bellman equation,expected value Bellman equation.

这里讨论一下这些的性质,这些都叫做Subordinate ADPs。

mutually semiconjugate: 两个动态系统 满足 mutually semiconjugate 如果存在order-preserving maps 使得

Lemma: 对于满足 mutually semiconjugate 的 ,以下结论成立

subordinate: 两个ADP , 称   subordinate to 如果存在一个 order-preserving map 以及一系列order-preserving maps 使得

换言之,对于每一个policy 都满足 mutually semiconjugate

一个MDP例子: 给定一个MDP ,

记  

那么Q-factor operators为

这构成一个ADP:

并且原bellman operator为

原本的ADP为  

根据定义, subordinate to

Proposition: 如果 subordinate to ,那么以下结论成立:

Theorem:  如果 subordinate to

  • 如果  max-stable, 那么 max-stable 而且有
  • value function 为

另外有

这个结论比之前的Isomorphic要弱一些,需要原来的ADP满足stable,subordinate才满足。反过来不一定成立。

一个应用: 依然以Epstein–Zin为例:原来的ADP如下

考虑F:

以及G:

F和G都是order-preserving。

根据定义容易得到 满足

因此可以定义 :

这样转换的好处在于,使用 来求解的维度降低了。并且只要原问题是max-stable,那么 求解的问题也似乎max-stable。

根据定义,optimal policy为

HPI求解算法:

  1. 猜测一个初始policy
  2. 给定 , 迭代求解对应 的不动点
  3. 给定 ,求解其对应的policy(这是在 下的policy,只需要和 相关,因为要求的只是影响h的 ,根据 来最大化,而U是期望值的最大化,不取决于当期的e):

4. 判断新的policy和原来是否相同,如果不同则带回第二步直到相同。

  1. 求解出h后带入optimal policy:


一名搬砖工的日常
个人树洞,记录学习和生活,脚踏实地,迷途未远,来者可追。