本书来自QuantEcon系列Dynamic Programming VOLUME I: FINITE STATES。 https://dp.quantecon.org/
再来一节纯理论,主要讨论之前RDP没有涉及到的convergence的理论。
一些定义
首先先来一点定义!
partially ordered set V和self-map T on V,记其不动点为 , 那么称T为
upward stable 如果
downward stable 如果
order stable 如果upward and downward stable
如下图为order stable
Lemma: order-preserving self-map T,如果T是globally stable on V,那么 T order stable
order dual 满足
Lemma: S order stable on V iff 𝑆 is order stable on
Abstract Dynamic Programs
由之前的RDP可以知道,其完全由一组policy operators决定。选择所有policy operators中使得效用最大的。在这里我们也从这个出发来定义Abstract Dynamic Programs:
Abstract Dynamic Programs: 满足
为partially ordered set 为一组self-maps on V 对于每个 , 都有一个 least and greatest element
这里第三条我们需要存在最小和最大是因为我们想要讨论min和max,如果只讨论max那么只需要greatest element存在就好。
依然,我们定义
policy operators: 每个
v-greedy: policy 满足对于给定v有
MDP写为ADP: 对于MDP , policy operators为
对应的ADP为 . 称之为ADP generated by M
RDP写为ADP: 对于RDP , policy operators为
对应的ADP为 . 称之为ADP generated by
Optimality
接下来要讨论ADP的最优化条件了。和RDP一样,我们先做以下定义
-value function: , 的不动点。
well-posed 每个 都有唯一不动点。
Bellman operator:
ADP 可以有以下一些性质:
finite: 如果 为有限集 order stable: 如果每个 都order stable max-stable: 如果 order stable 并且 T 至少有一个不动点。
Proposition: 如果 order stable 并且 finite, 那么也 max-stable
Corollary: 对于一个ADP generated by RDP ,如果 globally stable, 那么对应的ADP max-stable.
value function 最大的(如果存在)
Bellman’s principle of optimality:
然后就是最重要的, 有解的条件以及和bellman的关系,与RDP类似,我们有:
Theorem: 如果 满足finite和order stable,那么有以下结论
相比于RDP的条件,这里的条件又放松了些。
Proposition: 如果 max-stable, 那么以上 (i)-(iv)都成立
Optimality Results for RDPs
这里来讨论一下之前用OPI来求解RDP的一些性质。
Lemma: 如果 ,那么有
这说明只要随便给定一个policy,算出它对应的 -value function, 然后一直迭代下去就可以得到 value function了。
Lemma: 对于OPI,循环m次求解 value,定义那么有
Lemma: 对于任意 :
Lemma: 对于任意 , 记
如果存在k 使得 ,那么
Lemma 如果 , 那么存在 使得
Isomorphic Dynamic Programs
有时候看起来不同的两个问题是等价的。比如之前RDP问题homeomorphisms来判断两个RDP之间的关系,一个stable另一个也stable。
order conjugate 和 如果存在从 到 的双射 ,并且F是order isomorphism:
Lemma: 如果 和 order conjugate under F,并且 的唯一不动点是 ,那么 的唯一不动点是 。 并且如果一个是order stable,那么另一个也是order stable
isomorphic: 两个ADP 和 isomorphic under F,如果他们有一样的policy set ,并且对于任意 policy, 和 order conjugate
Theorem: 对于两个isomorphic的ADP,有以下结论:
两个ADP最优化性质完全相同,一个有解另一个也有,并且解之间的关系是F。
anti-isomorphic: 与之前定义类似,两个ADP 和 anti-isomorphic under F,如果他们有一样的policy set ,并且对于任意 policy,并且双射 F 满足 anti-isomorphism
Theorem 两个ADPanti-isomorphic under 𝐹,那么以下结论成立:
与之前结论依然类似,一个有解另一个也有,只不过一个是最大值,另一个是最小值。
一个应用 Epstein–Zin
回到Epstein–Zin例子,来看一下isomorphic怎么用:
policy operator 为
记
现在将原来的问题稍微变形一下,记 , ,
那么可以得到
时, , isomorphic. 时, , anti-isomorphic.
Subordinate ADPs
在之前有讨论到同一个MDP问题下可以用三个不同的operator求解:regular MDP Bellman equation, Q-factor Bellman equation,expected value Bellman equation.
这里讨论一下这些的性质,这些都叫做Subordinate ADPs。
mutually semiconjugate: 两个动态系统 满足 mutually semiconjugate 如果存在order-preserving maps 和 使得
Lemma: 对于满足 mutually semiconjugate 的 ,以下结论成立
subordinate: 两个ADP 和 , 称 subordinate to 如果存在一个 order-preserving map 以及一系列order-preserving maps 使得
换言之,对于每一个policy , 都满足 mutually semiconjugate
一个MDP例子: 给定一个MDP ,
记 :
:
那么Q-factor operators为
这构成一个ADP:
并且原bellman operator为
原本的ADP为
根据定义, subordinate to 。
Proposition: 如果 subordinate to ,那么以下结论成立:
Theorem: 如果 subordinate to :
如果 max-stable, 那么 max-stable 而且有
value function 为
另外有
这个结论比之前的Isomorphic要弱一些,需要原来的ADP满足stable,subordinate才满足。反过来不一定成立。
一个应用: 依然以Epstein–Zin为例:原来的ADP如下
考虑F:
以及G:
F和G都是order-preserving。
根据定义容易得到 满足
因此可以定义 :
这样转换的好处在于,使用 来求解的维度降低了。并且只要原问题是max-stable,那么 求解的问题也似乎max-stable。
根据定义,optimal policy为
HPI求解算法:
猜测一个初始policy 给定 , 迭代求解对应 的不动点 给定 ,求解其对应的policy(这是在 下的policy,只需要和 相关,因为要求的只是影响h的 ,根据 来最大化,而U是期望值的最大化,不取决于当期的e):
4. 判断新的policy和原来是否相同,如果不同则带回第二步直到相同。
求解出h后带入optimal policy: