在我们研究GTO策略的时候,碰到混合行动是不可避免的,而当我们从人类视角去试图理解混合行动的时候,很容易出现以下认知:
1.这个组合的Check频率是70%,Bet频率是30%,说明Check比Bet好
(内心OS:solver选择更高频率Check还不能说明问题吗)
2.这个组合的Check频率是70%,Bet频率是30%,我必须严格遵守这样的频率分配
(内心OS:不用随机数真的会让我有频率焦虑)
3.这个组合的Check频率是70%,Bet频率是30%,至少我一定不能全部Check或者全部Bet
(内心OS:不能走极端,容易被剥削)
好了,现在我要告诉你们,这三个观点在均衡解理论环境中都是错误的。这篇文章,我想讲一讲在现代理论学习中,常常被大家忽略加误解的一个重要观念:Indifference。
在后文中我会一一解释这些观点错在哪里。
Indifference的定义和来源
Indifference的定义是:(某一个组合)有两个或以上的行动选项,而它们EV相同。
这个定义看似简单,但实际上关乎扑克理论的底层逻辑。
我想首先有必要解释一下混合行动是怎么被Solver产出的
传统的CFRsolver比如Pio输出策略的基本过程包括:
初始化策略
模拟对局
计算遗憾值
更新策略
策略平滑和归一化
迭代过程
输出最终策略
用简单到可能并不准确的说法解释的话,Solver会比较各个行动选项的EV,然后在不断的迭代过程中增加更高EV的行动选项的频率。这这个过程中,某个组合可能选择某个特定行动的EV一直会更高,最终会变成100%频率的纯策略,而另一些组合也可能出现出现了某几个行动的EV相同,最后在Solver到达我们设定的精度的时候,以某个频率的混合策略作为结果被输出。
这里会延伸出两个定义,对于对每个组合来说都可能存在纯策略或者混合策略
1.纯策略(Pure strategy) :100%的频率选择某个单一行动
2.混合策略 (Mixing strategy):混合两个及以上行动
当出现混合策略的组合的时候,也就出现了Indifference。
Indifference的法则
关于Indifference,有三条硬性法则。
法则一:自私EV法则
没有任何组合会为了提升范围中其他组合的EV而牺牲自己的EV。这应该是不言而喻的,如果某个组合选择跟注只会损失筹码,那么跟注是没有意义的。
法则二:混合行动=Indifference法则
如果一手组合混合了多个行动,那么这些行动的EV一定都相同。例如,如果一手牌在跟注和弃牌之间混合,那么跟注的价值一定是 0EV。
同理可得,当一个组合出现了混合行动的时候,那么这些行动就一定都是indifferent的。
需要注意的是,这一法则适用于任何类型策略而不仅仅是GTO环境中。它适用于GTO策略、剥削策略以及所有介于两者之间的策略。如果你面对对手的不完美且可被剥削的策略,那么一些组合仍然不可避免地面临Indifferent的决策。尽管剥削性模拟往往导致更多的纯策略,因为对手不完美策略将导致我们Indiffernet的决策点较少。Indifference不依赖于GTO,它只依赖于对手的策略。
引申到学习上,这能帮助我们理解很多问题,我们应该总是想通过各种方法让对手的更多范围Indifferent,因为这将提升我们自己的EV。当Solver最终输出结果存在多个Size的时候,Solver的每个size都有一个针对的对手范围,而目的就是让对方范围的更多部分indifferent。
法则三:固定策略法则
在对抗固定策略(GTO策略就是一个固定策略)时,改变混合行动组合的混合频率并不会出现任何EV损失。只有当对手能相应正确调整策略的时候,混合频率错误才有可能被剥削。
这些法则对于一部分学习者可能过于晦涩,那么我们来看一开头提出的三个例子,这里我们暂时假设Solver的结果是绝对精确的,不考虑精确度的问题
1.Q:这个组合的Check频率是70%,Bet频率是30%,说明Check比Bet好吗?
A:NO!因为这个组合已经是混合行动,所以实际上这里Check和Bet是indifferent的,更高频率的行动并不更好,EV都是一样的!
2.Q:这个组合的Check频率是70%,Bet频率是30%,我必须严格遵守这样的频率分配吗?
A:不一定!因为在理论环境中,对抗固定策略的时候改变频率并不会产生EV损失,所以混合成70% +30%和50%+50%实际上没有区别。
3.Q:这个组合的Check频率是70%,Bet频率是30%,至少我一定不能全部Check或者全部Bet?
A:不尽然!和问题二一样,我们已经知道实际上在对抗固定策略的时候,哪怕是100%+0%都和70%+30%没有区别。不过在实际游戏这样做可能是好的。
简单分类,人类在游戏的时候可能会犯纯错误或者混合错误。
1.纯错误(Pure mistake):选择了一个在GTO策略中永远不会被选择的行动。即使对手完全不会调整,也会损失EV。
2.混合错误(Mixing mistake):在混合行动的频率选择上出现的错误。混合错误是可以被剥削的,但对抗固定策略不会损失EV。
纯错误正是GTO策略的盈利来源。因此我们可以发现,纯错误应该是我们学习中关注的主要矛盾,而混合错误应当是次要矛盾。
Indifference与实践
那么正确理解了Indifference的概念之后,对于我们的实际学习和游戏有什么帮助呢?
在解答刚刚三个问题的时候,我们一直在强调对抗固定策略时,这是因为频率错误是可以被剥削的,它只是并不能被GTO策略这样的固定策略剥削。
而在实际游戏中,没有人能打出完美的GTO策略。而人们有时会根据自己的判断(有时候是误判)调整自己的策略或者一部分策略。
不过我们也无需过度担心,因为有很明显的两个问题:
1)对手绝大部分时候不可能通过摊牌或者数据确定你的某个组合有频率错误。
2)即使对手怀疑这里你的某个组合有频率错误,他们也不能做出即时且正确的最大化剥削调整。
这对我们自己的简化学习实际上有一定启发性:
1.我们不再应该对混合频率有焦虑或者烦恼,假设你把所有存在混合行动的组合全都平均混合,比如有两个行动的时候简单粗暴地混合成50%+50%,理论上这是一个混合错误却不会出现EV损失,而仅仅看摊牌,对手甚至没有怀疑你有频率错误的理由,又何谈进行剥削呢?
2.我们应该对具体频率数字去魅化看待,比如翻前的某些场景,你会发现同样都是混合开牌和弃牌,有时候88的open频率反而比99高,你觉得可能是牌面覆盖的原因但又不能确定,很想知道一个确切的答案。但实际上,确切的答案已然不重要,因为这里88和99都是indifferent的行动,具体频率数字谁高谁低并不影响他们都是0EV的开牌。
3.当我们自认为自己发现了对手的某些倾向的想要进行一些调整剥削的时候但并没有很确定的时候,我们应该首先改变混合行动组合,因为即使判断错了也几乎不会有EV损失。当你的想法有了更多数据的验证之后,真正的剥削策略会比你想象的夸张的多。
精度和Indifference的关系
在某个行动出现了极低频率的混合的时候,这可能不并不是Indifference的情形。在练习模式中,有时候我们会发现自己做出了一个 【存疑超低频行动】,这是因为精度的问题。因为实际上Solver只是在运算到我们设定的精度就停止了,最终频率只是在这个精度设置下输出的结果,而非理论上的最终结果。
比如,在GTOWizard中某个组合最终呈现 1%的Check和99%的Bet,这时候我们倾向于怀疑在更高精度下,1%的Check频率会被收敛掉,而这个组合最终会选择100%Bet的纯策略,这里就并不是一个典型的Indifference场景。GTOWizard的翻后解的精度设置一般在0.1%-0.3%,我们一般认为这个精度设置下频率低于3.5%的混合行动是【存疑超低频行动】。
参考文献
1.The Three Laws of Indifference | GTO Wizard
2.Does your range affect your strategy? | GTO Wizard.