谈谈大模型算法和基础设施的演进...

文摘 2024-11-03 19:31 浙江

周日的夜晚, 留了一点时间出来闲谈扯淡...先说一个瓜...

1. 某百亿量化私募偷策略被起诉

某国内百亿私募创始人剽窃被美国地方检察机关起诉, 关键是还通过VPN从中国访问,然后还通过文件共享(疑似国内的某个网盘)弄出来. 大脑的记忆力真的那么弱么? 其实吧,这个圈子里还有一些也是这样的靠策略起家...当市场的微观结构带来变化后, 南郭先生们接下来的业绩压力就非常大了...这些花街回来的南郭先生们, 只会一些照本宣科的东西接下来还会惹出一些幺蛾子出来...

渣B一直在讲, 怎么对整个市场的风险进行测度才是最重要的.. 最搞笑的是这群人还有一些做LLM的人居然(涉及到一些机构的策略就不多说了)....

2. 关于ScaleUP互联

几个有趣的事情, AWS Trainium团队把Tesla Dojo Fabric的Leader, 也就是TTPoE的领导者Eric挖走了. 然后AWS加入到了UALink. 然后UALink也走向Ethernet了.

其实渣B几年前就把整个技术路径给你们讲清楚了的, 其实很多时候提一些国产自主标准的时候, 别忘了一个前提是标准本身具有足够的先进性. 例如WAPI,TD-SCDMA...就不多说了... 有些时候改几个字段改几个编码方式去追赶所谓国际领先, 而不是从根源上来抉择在众多限制中要什么, 现有技术能做什么....

从TTPoE的角度来讲, 很简单的一个逻辑TTP是一个片上网络协议可以用做ScaleUP, 而TTPoE是一个ScaleOut协议. 两者将ScaleUP和ScaleOut融合了.

UALink的博弈会非常好玩, AMD的InfiniFabric又没有以太网的经验, 这下进来一个AWS Trainium, 我估计Eric肯定会代表AWS带着一个类似于TTP的方案跟UAL里面的人谈... 其实问题回归到在标准以太网交换机的框架下, 这个ScaleUP协议怎么设计? ScaleUP和ScaleOut融合该怎么做?

博通的SVP在Linkedin上一个回复很有趣

这是正路, 相反NV当前的方案是非常丑陋的, 也没办法NVLink的人和IB的人互相之间的部门墙...另一边前面几天还看着UEC的Mailer里各个厂的人还在为一个拥塞控制扯得不可开交的...

而国内在ScaleUP的协议设计上, 还是对GPU的体系架构了解的人太少了...

3. ScaleUP是不是刚需

简单的给个暴论: 未来三五年内一定是, 长期演进来看肯定不是.

其实ScaleUP和互联网初期的各种小型机处理数据的逻辑本质上是相同的, 短期内通过这样的ScaleUP系统不计成本的把业务跑通的逻辑是成立的, 但是长期演进下的成本考虑, 一定会出现新的算法来克服对ScaleUP的需求.

当前ScaleUP的需求来自几个方面, 一方面是TP域太小需要进一步扩大来增加模型的规模, 另一方面也是增加模型规模的MoE模型的EP并行需求. EP在ScaleOut上各家瞎胡搞的RoCE alltoall差的一坨屎, 被迫只能把EP放在ScaleUP里并且导致TP也不能扩大.

或许这也是GB200的需求那么高的另一个原因, TP=8+EP=8正好64卡, 然后一个NVL72剩几张卡备份. 而如今的美股来看, 好像前期H100买的不那么多的两家AWS和Google日子过的还挺滋润的...

说个故事吧, 在互联网泡沫的顶峰, 思科开始设计了一款CRS-1的系统, 类似于NV以后想做的光互联ScaleUP到千卡规模. 当时思科说出来的数据和今天的NV一样令其它竞争对手绝望的. 整个系统可以支持1152张卡, 全光互联,还有专门的Fabric机柜... 最后产品出来已经是2004年了, 然后整个产品生命周期也没有一家能够部署到这样的规模...

模型真的需要那么大么? 最近Meta开源的一个MobileLLM, <1B就能够很好的在端侧执行很多指令跟随的任务了.

然后另一方面, 用多个不同尺度的模型构建workflow也很有趣, 例如前段时间在朋友圈看到的用Llama 1B处理PDF, 然后70B生成播客文稿, 再用一个8B的模型增加戏剧性, 最后在TTS生成音频..

我们真的需要一个400B~1T的模型么? 当然XAI和Meta都在10万卡的H100上面训练新的模型...但后面呢?

4. Memory-Bound

其实这些本质就是算法上是否对Memory-bound的算子能够做好足够的优化或者替代. 从基础设施的角度提供更大的互联和更大的算力无可厚非, 但是从算法上, 我们能否绕开呢? FlashAttention是一条走算子融合的路, 而另一方面, 例如为了训练的稳定性, 现在的模型几乎在所有可能加上LayerNorm或者RMSNorm的地方都加上了. 有变通的算法么? 看了一下NV的一篇nGPT的文章, nGPT: Normalized Transformer with Representation Learning on the Hypersphere. 将Attention Emb这些都在一个超球面上表示, 直接的球面线性插值(SLERP)计算复杂度相对较高, 然后作者采用了线形差值然后retraction到曲面上的方法. 单纯的从Loss的角度来看还是挺好的

从数学的直觉上来看, 单个的超球面上的表示似乎还是有很多缺陷和太多的约束... 后面在《大模型时代的数学基础》这个系列里再单独写一篇吧... 曲面的引入似乎很有趣的可以去抄一些代数几何的作业了?

另一个话题就是稀疏化的过程, 对于长序列上, 无论是LongFormer/BigBird/TransFormerXL等, 或者是Monarch Mixer等, 或者最近微软的LONGNET

这些要么是Random attention, 要么是Window Attention, 要么就是Duality Attention.. 本质上可能还是需要一个和Attention相关的图结构.

其实从个人的角度来看, 解决这些memory-bound的问题或许还是要从SAE(Sparse AutoEncoder)的特征结构上进行更多的分析, 例如文章《The Geometry of Concepts: Sparse Autoencoder Feature Structure》是一个很不错的开端...通过SAE的点云在投影下出现了明显的几何结构

只可惜国内对于SAE的研究没有看到任何一家在做....渣B一直在提国内几个大模型厂家,有算力的开放一些SAE的数据出来对整个行业是有好处的....

最后, 个人的观点一直是未来可能会演进到如下的模型结构

并且堆叠成多个不同的GNN作为SAE的Adapter引入

当然GNN的引入又带来另一种MemoryBound... 但是至少算力和ScaleUP不是必须的了...

最后吐个槽, 几年前提NetDAM的时候, 很多人还不明白, 或许过几年我们就能够看到ScaleUP就会长成那个样子...TTPoE是这样了, 未来UAL也会演进成这样...

而对于GNN+SAE, 或许就像ScaleUP/NetDAM那样, 过几年后就有人明白渣B在说什么了...

zartbot

随便记录点有趣的东西

最新文章

推测一下Nvidia Rubin的288卡系统架构

AWS Re:Invent 从AWS CTO演讲的教训看AI云基础设施架构

AWS Re:invent GenAI路上快速的追赶者, 详细谈谈Trainium2/3架构

AWS Re:invent一场教科书级的“科普”

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

中国大模型的生存战?

抄袭与创新

谈谈端侧AIPC网络安全的一个场景

ScalingLaw终结了么?

谈谈UEC和UALink是否融合以及协议设计相关的问题

再来谈谈未来AI基础设施演进和EthScaleUP

推荐一本《Streaming Systems》的书

谈谈大模型算法和基础设施的演进...

再来谈谈ScaleUP网络

算力通缩下的“老黄经济学”

把GPU当成一个金融产品如何上杠杆?

继续谈谈三万亿的破绽

聊一聊OAI Swarm和多智能体

敬畏市场, 但是还是要充满希望~

再谈谈A股风险教育以及英伟达挖了思科AI网络的头牌Fellow的八卦

谈谈上交所指定交易, Meta Movie Gen和GPU微架构

Option-001: 谈谈A股的风险管理

谈谈A股量化中性及期权策略和上交所故障

谈谈CoT和推理的Scaling Law

致敬小镇做题家的OpenAI o1

随性摸鱼: 谈谈TTPoE和ScaleUP以及HMC

Tensor-010 Tensor Copy

Tensor-009 Cute Tensor

HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA

Tensor-008 CuTe Layout代数

HotChip2024-Day2: AI加速器互联和云AI处理器, Tesla是亮点

HotChip2024-Day1:AI加速器芯片

Tensor-007 Cute Layout简介

Tensor-006 AI软硬件交互界面: 可组合的Kernel

谈谈AI的软硬件交付界面

Tensor-005 CUTLASS简介

期待一下今年的HotChips

基于EthZ的以太网ScaleUP互联方案

谈谈下一代AI训练网络架构

[Sigcomm2024论文解析]谈谈网络研究和工程方法

Tensor-004 TensorCore编程及优化

[Sigcomm论文解析] Llama 3训练RoCE网络

Tensor-003 TensorCore架构

再来谈谈AI落地的事情

Llama 3技术报告解读(1)- AI基础设施和并行策略

Tensor-002 矩阵乘法优化

Tensor-001 矩阵乘法分块乘法概述

谈谈AISys架构师的基本素养

再来谈谈AI Fabric,你是计党还是网党?

谈谈AI Fabric, bus with network ?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉