[倾城专栏]初八开工,带着研究DEEPSEEK的洞见

文摘   2025-02-05 19:08   浙江  

一周前,大年初一,我们对DeepSeek做了个粗浅的话题探讨。

[倾城专栏]:Deep Seek的第一性原理

聚焦它的第一性原理:轻巧和开放


今天,大年初八开工日, 结合过去一周的使用和相关信息研究, 从牌手视角再输出一点絮叨。


阅读本期文章,大概需要8分钟。


1. DeepSeek input侧的Keypoint: 

强化学习|蒸馏模型|推理能力的涌现

以上三个关键词,皆为DeepSeek的开发关键。

涉及到AI设计思路思想的部分,我尽量以人和牌手的视角做类比,牺牲一些严谨性,对冲文章的穿透力。

毕竟,•穿透•是你选择把8分钟给EPCODE的理由。

强化学习:

我们直接上场景: 学游泳•学骑单车•学打牌都可以看成•强化学习•的场景。

action· feedback· review•adjustment, rolling。

即行动•反馈(+-)•复盘•调整, 四步循环🔄。


我们直接从扑克的视角切入, 它最大的难点•痛点•魅力, 在于反馈(算法)机制的非线性•非正向•非耦合...

在运气因素(表面上)和频率因素(实质上)的叠加之下, 它的反馈系统非常的混沌与紊乱。

而它的魅力正在于此,与国际象棋•围棋等棋类大哥不同, 它的沙盘推演更加符合这个多变的世界的本来面貌。 

这个世界就是由运气叠加(随机噪声叠加在信号里),频率分布(逆哺乳动物•类人猿•人类的时域感知)的世界。 对一个事件而言。


所以结合DeepSeek和它致敬的先驱AlphaGo, 他们的北美同行(之于DeepSeek)和徒孙(之于AlphaGo)的蹉跎, 核心不是核心算力的堆叠失当,迷恋•监督学习•不自拔。

而是反馈算法•反馈系统, 即辨识度算法是否有效•是否高效•是否石破天惊•是否不明觉厉。

回到人类的学习提升,牌手的迭代精进:

是否产生一套有效•高效•石破天惊•不明觉厉的反馈系统, 是一个人认知力,一个牌手迸发力的关键。


在纷繁的随机性叠加下(运气噪声和频域场作用), 你能否辨识出加减性。 你能否辨识出变量的权重大小(次元性•乘除性)。


对局面的判断, 叠加上时态性(当下和未来),评估方向上(Do·Undo), 矢量上(尺度)以及换手性(主动action与被动induce)上的排列组合...

扑克的演进可以分成三个阶段:


1.Pre-solver:解算器出现前

通过手牌实践和人脑统计学,

做运气因素•频域因素的定性定量研究。


2.Solver 1.0至Open AI出现前

通过解算器算力的外挂支持,

把监督学习(解算器的参考答案)

提升到前AI时代的新高度,

辅助一些统计学方法论(聚合报告等),

重新定义GTO基线(cEV baseline)。

而2022年左右以GTOWizard为代表的

solver 2.0的出现, 则继续从三个层面

做出优化:

1)input信息输入的便捷性•友好度

2)output信息输出的快捷性•呈现友好

3)GTOwizard AI从输出答案到DIY方案的转化


过去100年的扑克演进史(90年解算器前时代+10年解算器时代), 当她遭遇Open AI和DeepSeek的邂逅, 也就将快速步入新的AGI时期: 推理能力>解算能力的时期。


推理能力的涌现

我们暂且跳过蒸馏算法(师父带徒弟,视频观看学习,读书学习,课程学习,一对一私人定制指导甚至Solver参考答案), 蒸馏算法的极简表达就是用过来人•过来的手牌•过来的经验,指导你过来。


我们直接聊•推理能力的涌现•。

一个牌手的尤里卡•正念时刻, 

他对一个场景•一个局面•一个节点,产生了判断的优先级(宏观•中观•微观), 与执行的章法(动•静•出手•潜伏), 以及可实施的操作步骤(定量的衣橱构建力•spot处理力)。


好的, 目前市面上的解算器模型,基本聚焦在微观层面的spot处理力。

而对中观的频域力(不是30%要做什么)和宏观的优先级(权重系数:锦标赛权益>底池权益>量化EV)缺乏信息输入的入口。


比如Tony Lin该跟注吗?

EPCODE该跟注吗?

立即把BR roll, 参赛频率, FGS可能性等等输入进变量单元里...

再讲下去8分钟读不完了,

推理能力的涌现是AI模型最重要的MOT;

辨识度的涌现是人类牌手, 博弈者,决策人,

最重要的MOT。


2025年2月之前, 扑克是算力之争。

算力包括: Bank Roll, 实践精进, 反馈系统。


2025年2月后,依然如此。

但正如Deepseek在算力上的资源受限突破,牌手也将迎来•反馈系统•的弯道超车。

AI工具•圈子群落•自身头脑的开窍, 都将助力弯道超车。

不仅在扑克上, 在博弈上,在决策上,

迎来弯道超车!



EP code
有关扑克的一切有趣话题
 推荐账号,扫码关注
推荐账号二维码
 最新文章