谈谈大模型算法和基础设施的演进...

文摘   2024-11-03 19:31   浙江  

周日的夜晚, 留了一点时间出来闲谈扯淡...先说一个瓜...

1. 某百亿量化私募偷策略被起诉

某国内百亿私募创始人剽窃被美国地方检察机关起诉, 关键是还通过VPN从中国访问,然后还通过文件共享(疑似国内的某个网盘)弄出来. 大脑的记忆力真的那么弱么? 其实吧,这个圈子里还有一些也是这样的靠策略起家...当市场的微观结构带来变化后, 南郭先生们接下来的业绩压力就非常大了...这些花街回来的南郭先生们, 只会一些照本宣科的东西接下来还会惹出一些幺蛾子出来...

渣B一直在讲, 怎么对整个市场的风险进行测度才是最重要的.. 最搞笑的是这群人还有一些做LLM的人居然(涉及到一些机构的策略就不多说了)....

2. 关于ScaleUP互联

几个有趣的事情, AWS Trainium团队把Tesla Dojo Fabric的Leader, 也就是TTPoE的领导者Eric挖走了. 然后AWS加入到了UALink. 然后UALink也走向Ethernet了.

其实渣B几年前就把整个技术路径给你们讲清楚了的, 其实很多时候提一些国产自主标准的时候, 别忘了一个前提是标准本身具有足够的先进性. 例如WAPI,TD-SCDMA...就不多说了... 有些时候改几个字段改几个编码方式去追赶所谓国际领先, 而不是从根源上来抉择在众多限制中要什么, 现有技术能做什么....

从TTPoE的角度来讲, 很简单的一个逻辑TTP是一个片上网络协议可以用做ScaleUP, 而TTPoE是一个ScaleOut协议. 两者将ScaleUP和ScaleOut融合了.

UALink的博弈会非常好玩, AMD的InfiniFabric又没有以太网的经验,  这下进来一个AWS Trainium, 我估计Eric肯定会代表AWS带着一个类似于TTP的方案跟UAL里面的人谈... 其实问题回归到在标准以太网交换机的框架下, 这个ScaleUP协议怎么设计? ScaleUP和ScaleOut融合该怎么做?

博通的SVP在Linkedin上一个回复很有趣

这是正路, 相反NV当前的方案是非常丑陋的, 也没办法NVLink的人和IB的人互相之间的部门墙...另一边前面几天还看着UEC的Mailer里各个厂的人还在为一个拥塞控制扯得不可开交的...

而国内在ScaleUP的协议设计上, 还是对GPU的体系架构了解的人太少了...

3. ScaleUP是不是刚需

简单的给个暴论: 未来三五年内一定是, 长期演进来看肯定不是.

其实ScaleUP和互联网初期的各种小型机处理数据的逻辑本质上是相同的, 短期内通过这样的ScaleUP系统不计成本的把业务跑通的逻辑是成立的, 但是长期演进下的成本考虑, 一定会出现新的算法来克服对ScaleUP的需求.

当前ScaleUP的需求来自几个方面, 一方面是TP域太小需要进一步扩大来增加模型的规模, 另一方面也是增加模型规模的MoE模型的EP并行需求. EP在ScaleOut上各家瞎胡搞的RoCE alltoall差的一坨屎, 被迫只能把EP放在ScaleUP里并且导致TP也不能扩大.

或许这也是GB200的需求那么高的另一个原因, TP=8+EP=8正好64卡, 然后一个NVL72剩几张卡备份. 而如今的美股来看, 好像前期H100买的不那么多的两家AWS和Google日子过的还挺滋润的...

说个故事吧, 在互联网泡沫的顶峰, 思科开始设计了一款CRS-1的系统, 类似于NV以后想做的光互联ScaleUP到千卡规模. 当时思科说出来的数据和今天的NV一样令其它竞争对手绝望的. 整个系统可以支持1152张卡, 全光互联,还有专门的Fabric机柜... 最后产品出来已经是2004年了, 然后整个产品生命周期也没有一家能够部署到这样的规模...

模型真的需要那么大么? 最近Meta开源的一个MobileLLM, <1B就能够很好的在端侧执行很多指令跟随的任务了.

然后另一方面, 用多个不同尺度的模型构建workflow也很有趣, 例如前段时间在朋友圈看到的 用Llama 1B处理PDF, 然后70B生成播客文稿, 再用一个8B的模型增加戏剧性, 最后在TTS生成音频..

我们真的需要一个400B~1T的模型么? 当然XAI和Meta都在10万卡的H100上面训练新的模型...但后面呢?

4. Memory-Bound

其实这些本质就是算法上是否对Memory-bound的算子能够做好足够的优化或者替代. 从基础设施的角度提供更大的互联和更大的算力无可厚非, 但是从算法上, 我们能否绕开呢? FlashAttention是一条走算子融合的路, 而另一方面, 例如为了训练的稳定性, 现在的模型几乎在所有可能加上LayerNorm或者RMSNorm的地方都加上了. 有变通的算法么? 看了一下NV的一篇nGPT的文章, nGPT: Normalized Transformer with Representation Learning on the Hypersphere. 将Attention Emb这些都在一个超球面上表示, 直接的球面线性插值(SLERP)计算复杂度相对较高, 然后作者采用了线形差值然后retraction到曲面上的方法. 单纯的从Loss的角度来看还是挺好的

从数学的直觉上来看, 单个的超球面上的表示似乎还是有很多缺陷和太多的约束... 后面在《大模型时代的数学基础》这个系列里再单独写一篇吧... 曲面的引入似乎很有趣的可以去抄一些代数几何的作业了?

另一个话题就是稀疏化的过程, 对于长序列上, 无论是LongFormer/BigBird/TransFormerXL等, 或者是Monarch Mixer等, 或者最近微软的LONGNET

这些要么是Random attention, 要么是Window Attention, 要么就是Duality Attention.. 本质上可能还是需要一个和Attention相关的图结构.

其实从个人的角度来看, 解决这些memory-bound的问题或许还是要从SAE(Sparse AutoEncoder)的特征结构上进行更多的分析, 例如文章《The Geometry of Concepts: Sparse Autoencoder Feature Structure》是一个很不错的开端...通过SAE的点云在投影下出现了明显的几何结构

只可惜国内对于SAE的研究没有看到任何一家在做....渣B一直在提国内几个大模型厂家,有算力的开放一些SAE的数据出来对整个行业是有好处的....

最后, 个人的观点一直是未来可能会演进到如下的模型结构

并且堆叠成多个不同的GNN作为SAE的Adapter引入

当然GNN的引入又带来另一种MemoryBound... 但是至少算力和ScaleUP不是必须的了...

最后吐个槽, 几年前提NetDAM的时候, 很多人还不明白, 或许过几年我们就能够看到ScaleUP就会长成那个样子...TTPoE是这样了, 未来UAL也会演进成这样...

而对于GNN+SAE, 或许就像ScaleUP/NetDAM那样, 过几年后就有人明白渣B在说什么了...


zartbot
随便记录点有趣的东西
 最新文章