普通人的AGI技术月评 2024.03

文摘科技 2024-03-20 09:52 浙江

[作者] MK, Lian

‍‍‍‍‍‍‍

前言: 过载

AGI最让我头疼的地方就是每天信息太多……所谓人间一日，AI十年。

但，过载的信息=什么也看不到。

于是，对于我们每一个“普通人”来讲，需要的不是每天的信息轰炸，而是知识的精炼：排除噪音，抓住主线。于是我就想把自己公司的“月度AGI进展讨论”也写出来分享给大家，目的不是全面及时，而是退一步抓住重点，同时思考这些技术产生的商业与社会影响。篇幅所限，不会进入过多技术细节；对于实时性、全面性和技术细节有需求的朋友可以添加“中国三大AI顶刊”（量子位、新智源、机器之心）共同烹饪。

2024.2.18-3.19 AGI主线进展

大模型竞赛-专业组开赛(Gemini 1.5/Claude 3/Mistral Large): OpenAI不再是唯一选择, 欧洲有了大模型团队，GPT5准备中
多模态加速1：Sora再次证明AGI相对“专业窄AI”的代际优越性
多模态加速2：商业成熟度质的提升：ElevenLabs /Pika sound effect /Stable diffusion 3/Stable Cascade/Layer Diffusion
Agent能力突飞猛进：Devin(编程)、Sima(游戏陪玩AI）
机器人进入公众视野：Figure01 + OpenAI机器人演示
算力再突破：英伟达B200/GB200
开源生态的追赶：Grok1-GPT-3.5级别的开源大模型

正文

<1>大语言模型：专业组比赛开始

2023年3月14日，OpenAI推出GPT4，现在刚好是一年以后，“专业组比赛”正式开打。

Google - Gemini 1.5：超长文本 + 多模态

“记忆”一直是当前大语言模型的主要瓶颈，而一次性输入超长文本（更多内容）正是解决记忆问题的一个重要方式。更重要的是，超长文本窗在产品实操中是最容易操作和能马上见效的，因此超长文本的研究一直是LLM的一个重点方向。国内专注超长文本的是“月之暗面”，也刚刚宣布实现200万汉字的长上下文窗口。

Google的Gemini1.5把文本长度一下提高了近2个数量级。GPT4最多只有32k，而GPT-4 turbo也只支持到128k；而Gemini 1.5能达到稳定百万token(GPT-4 turbo的8倍)、极限千万token(GPT-4 turbo的80倍)的超长上下文窗口。加上其不俗的多模态理解能力，可以一次输入接近一整天的语音、三小时的视频或是700万词的巨著进行推理。长文本好处的一个直接例子是，研究者找了一门濒危语言Kalamang，一次性输入一本语法书和一本词典(25万tokens)，Gemini 1.5可以直接达到近人类的翻译水平。

Anthropic-Claude 3：全面硬刚GPT4

Claude 3 Opus 和最新版本的GPT-4可以各项在能力上正面PK，基本不分胜负。Anthropic还在官网放了一些prompt示例，展示Claude 3能完成的高级任务。这是GPT4第一次有了一个全方位对手；对于开发者来讲，除了GPT4之外也有了另一个选择。（虽然Claude 3 Opus甚至更贵）

最后一点八卦：OpenAI主要的研发人员来自于计算机科班出身，而Anthropic的核心则主要是物理背景比例更高，创始人Dario Amodei自己也是物理背景……不知道和学计算机的相比，学物理的人会不会对于AGI的技术选型和伦理道德问题有不同的见解；至少Anthropic自我标榜是"AI safety & research company"：安全第一，AI为人服务。

Mistral-Large：欧洲有了一流大模型团队，打破美国垄断

法国的Mistral发布了新模型Mistral-Large，基本面能力接近GPT-4。欧洲有了第一梯队实力的大模型。这次更新的同时宣布了Mistral和微软合作进行商业化的拓展，从更新补齐的原子能力也可以看出，重点加强了指令遵从、函数调用和检索增强的能力这些商业化应用中非常关键的能力。Mistral也从成立之初的开源博口碑的路线转为旗舰模型闭源商业化的路线。

Mistral-Large的意义还在于AGI局势从“美中博弈”开始走向多边的“主权AI”的模式。

欧洲大模型-Mistral首先出现在法国可能并不是偶然事件。基石来自于法国全社会对数学教育的重视和热爱（对比来讲，德国的物理更加发达），让这个只有7000万人的国家可以在数学菲尔茨奖上和独自与美国分庭抗礼，也让法语成为了伦敦量化交易行业(Quantitative Trading)的主流语言。

其他‍

Inflection更新了Inflection 2.5的模型，之前Inflection主打情商，这更新重点强化了模型的智商，可惜还是比GPT-4略逊一筹。

国内厂商也密集发布了一波模型，如智谱的GLM4、MiniMax的abab6、百川的baichuan3、科大讯飞的星火3.5、阿里的Qwen1.5、阶跃星辰的Step2，但整体上还处于追赶GPT-4的阶段，我们再给点多给点耐心。

最后，在敌人已经杀到家门口的情况下，GPT5还会远吗？这两天连Sam Altman自己都出来PR：“不要低估GPT5的进步”。

加速，已不可逆。

<2> 多模态加速爆发

Sora：AGI相对于窄AI的代际优越性

Sora绝对是本月多模态部分最受瞩目的进展，强烈建议大家去OpenAI的官网和Tik tok上切身感受一下它的强大和不足。

1. 可以生成最多60秒、能自动切镜头、各种屏幕比例的各类视频。而其他商业化产品都只能生成2～3秒，单镜头，顶多简单易动一下镜头，屏幕比例全靠裁切。

2. 复用了DALL·E 3的复杂指令理解和遵从能力，让生成的视频更可控。

3. 有超强的画面和角色一致性保持能力，即使中途有长时间遮挡或者切镜头也不怎么影响物体形象的稳定性。

4. 有一定对3D世界的理解，有潜力成为物理世界模拟器。

迈向商业成熟

如果说还没正式发布的Sara带给了我们无限可能性，那么其他在多模态上的其他进展虽然说没那么酷炫，但是可以直接拿来用了。

视频+音频协同。ElevenLabs的音效功能狠狠蹭了一波Sora的热度，给无声的视频配上音效，这两天逐渐开放了测试，据说效果还可以。PikaLabs也推出了音效功能，生成视频的时候一并把音效给包办了。

文生图：好控制、分图层。这些都是设计师马上就想付费用的。Stability AI把Stable Diffusion模型升级到了SD3，图像质量、图片中插入文字的控制力和多主体的prompt效果都更好了。此外，Stability还推出了新架构文生图模型Stable Cascade，又和Tripo合作开源了图生3D模型TripoSR。

ControlNet的作者张吕敏的新项目LayerDiffusion也很不错，可以让Diffusion模型生成多个图层，编辑起来就更方便了。

<3> Agent 呼之欲出

Devin：AI程序员

Devin是Cognition labs发布的软件工程师Agent，它的核心在于构建了长程规划和推理执行的工作流，从而能够完成复杂的编程任务，还能通过回溯修正错误，来提高正确率。这也证明了现在的LLM加上精细的Agent框架优化后，能力的天花板还是很高的。

Devin的价值可能是划时代的：不仅说1)初级程序员的饭碗不保；2)一人公司成为可能；更是3)AGI不需要人类介入，自我进化的道路基本通了。当然，Devin可能距离真正商用还有些距离，不过临界点比想得可能更快。

Figure01+GPT4：机器人开始有了脑子, 并进入公众视野

Figure的机器人Figure 01和OpenAI合作接入GPT-4的能力后的演示……我看过之后觉得非常creepy。Figure01的意义在于：证实了GPT4可以理解模糊指令、有脑地、协调地控制物理器件。

当然，这次展示的能力大概只是GPT的对话推理能力加上function calling调用已有的任务能力，而不是执行一些复杂的-不可事先编程的能力。但Figure01的另一个意义是让大众看到了“有脑机器人”的无限潜能。于是，马上会有更多资本涌入机器人赛道，原来一些破产边缘的机器人公司也可以续命了。

让我们拭目以待具身智能下一步的可进展：理解自身（物理意义上）限制和与世界交互方式；能根据指令，观察、练习学会新的技能……那将是AGI降临物理世界的时刻。

Sima：游戏Agent

Sima 能理解视觉+文字输入，自主控制键盘和鼠标来玩3D游戏。前段时间谷歌还推出了Genie，可以把2D图片变成一个可以操控主角移动的2D游戏环境。Sima虽然没有机器人酷炫，但Agent在游戏世界的商业落地一定会来的更快。

<4> 开源的追赶

Grok-1开源

和OpenAI杠上之后，马斯克开源了自己公司X.ai训练的三千亿参数MoE语言模型Grok-1。虽然开源的是没有经过微调的基座模型，但是之前Grok-1微调版本的表现能够超过GPT-3.5。Grok1虽然目前能力还一般，但其中的研究细节对于开源社区是巨大助推；以及，看这个参数量，应该还有更大的潜力没发挥出来。

另外，马斯克从一月开始就一直透露Grok 1.5快要训练完成了，先说会在二月份上线，后来又改到三月初，结果一直跳票到现在。接下来会继续开源Grok 1.5吗，还是在内部有了更强大的模型之后开源上一代表现一般般的模型出来diss OpenAI一下呢？继续卷下去吧，巨头们。

<5> 英伟达：推理算力暴增、摩尔定律继续

英伟达发布了全新的Blackwell架构GPU，一块芯片由两片裸片（Die）相连而成。性能比Hopper架构（也就是H系列GPU）有数倍的提升，而且这次英伟达支持了新的FP4和FP6精度来更好地加速模型推理，想必英伟达也觉得推理算力的需求增速会超过训练算力。此外也倍增了内存和NVLink带宽，对动辄上万亿参数量级的MoE模型有了更好的支持。
B200/GB200目前的技术细节还不太多。不过就像之前《AGI万字长文》所讲，芯片进一步提高算力受到量子力学理论限制，因此此次的迭代仍然是4nm制程。如果继续在硅基上迭代，多块芯片打包(如GB200)，(3D)堆叠架构等是一定要做的；这里考验的不仅仅是计算速度、传输带宽、更是能耗和散热。

往期文章

http://mp.weixin.qq.com/s?__biz=MzkyMTY1MTM4Mw==&mid=2247483983&idx=1&sn=f5ca7bf3f4b9fe1437aabc8c98d8741b

普通人的AI自由

AGI降临的世界中，我们每个人的自由向导。