[作者] MK, Lian
前言: 过载
于是,对于我们每一个“普通人”来讲,需要的不是每天的信息轰炸,而是知识的精炼:排除噪音,抓住主线。于是我就想把自己公司的“月度AGI进展讨论”也写出来分享给大家,目的不是全面及时,而是退一步抓住重点,同时思考这些技术产生的商业与社会影响。篇幅所限,不会进入过多技术细节;对于实时性、全面性和技术细节有需求的朋友可以添加“中国三大AI顶刊”(量子位、新智源、机器之心)共同烹饪。
2024.2.18-3.19 AGI主线进展
大模型竞赛-专业组开赛(Gemini 1.5/Claude 3/Mistral Large): OpenAI不再是唯一选择, 欧洲有了大模型团队,GPT5准备中
多模态加速1:Sora再次证明AGI相对“专业窄AI”的代际优越性
多模态加速2:商业成熟度质的提升:ElevenLabs /Pika sound effect /Stable diffusion 3/Stable Cascade/Layer Diffusion
Agent能力突飞猛进:Devin(编程)、Sima(游戏陪玩AI)
机器人进入公众视野:Figure01 + OpenAI机器人演示
算力再突破:英伟达B200/GB200
开源生态的追赶:Grok1-GPT-3.5级别的开源大模型
正文
<1>大语言模型:专业组比赛开始
2023年3月14日,OpenAI推出GPT4,现在刚好是一年以后,“专业组比赛”正式开打。
Google - Gemini 1.5:超长文本 + 多模态
“记忆”一直是当前大语言模型的主要瓶颈,而一次性输入超长文本(更多内容)正是解决记忆问题的一个重要方式。更重要的是,超长文本窗在产品实操中是最容易操作和能马上见效的,因此超长文本的研究一直是LLM的一个重点方向。国内专注超长文本的是“月之暗面”,也刚刚宣布实现200万汉字的长上下文窗口。
Anthropic-Claude 3:全面硬刚GPT4
Mistral-Large:欧洲有了一流大模型团队,打破美国垄断
欧洲大模型-Mistral首先出现在法国可能并不是偶然事件。基石来自于法国全社会对数学教育的重视和热爱(对比来讲,德国的物理更加发达),让这个只有7000万人的国家可以在数学菲尔茨奖上和独自与美国分庭抗礼,也让法语成为了伦敦量化交易行业(Quantitative Trading)的主流语言。
其他
Inflection更新了Inflection 2.5的模型,之前Inflection主打情商,这更新重点强化了模型的智商,可惜还是比GPT-4略逊一筹。
国内厂商也密集发布了一波模型,如智谱的GLM4、MiniMax的abab6、百川的baichuan3、科大讯飞的星火3.5、阿里的Qwen1.5、阶跃星辰的Step2,但整体上还处于追赶GPT-4的阶段,我们再给点多给点耐心。
最后,在敌人已经杀到家门口的情况下,GPT5还会远吗?这两天连Sam Altman自己都出来PR:“不要低估GPT5的进步”。
加速,已不可逆。
<2> 多模态加速爆发
Sora:AGI相对于窄AI的代际优越性
Sora绝对是本月多模态部分最受瞩目的进展,强烈建议大家去OpenAI的官网和Tik tok上切身感受一下它的强大和不足。
1. 可以生成最多60秒、能自动切镜头、各种屏幕比例的各类视频。而其他商业化产品都只能生成2~3秒,单镜头,顶多简单易动一下镜头,屏幕比例全靠裁切。
2. 复用了DALL·E 3的复杂指令理解和遵从能力,让生成的视频更可控。
3. 有超强的画面和角色一致性保持能力,即使中途有长时间遮挡或者切镜头也不怎么影响物体形象的稳定性。
4. 有一定对3D世界的理解,有潜力成为物理世界模拟器。
迈向商业成熟
<3> Agent 呼之欲出
Devin:AI程序员
Devin是Cognition labs发布的软件工程师Agent,它的核心在于构建了长程规划和推理执行的工作流,从而能够完成复杂的编程任务,还能通过回溯修正错误,来提高正确率。这也证明了现在的LLM加上精细的Agent框架优化后,能力的天花板还是很高的。
Figure01+GPT4:机器人开始有了脑子, 并进入公众视野
当然,这次展示的能力大概只是GPT的对话推理能力加上function calling调用已有的任务能力,而不是执行一些复杂的-不可事先编程的能力。但Figure01的另一个意义是让大众看到了“有脑机器人”的无限潜能。于是,马上会有更多资本涌入机器人赛道,原来一些破产边缘的机器人公司也可以续命了。
让我们拭目以待具身智能下一步的可进展:理解自身(物理意义上)限制和与世界交互方式;能根据指令,观察、练习学会新的技能……那将是AGI降临物理世界的时刻。
Sima:游戏Agent
<4> 开源的追赶
Grok-1开源
<5> 英伟达:推理算力暴增、摩尔定律继续
B200/GB200目前的技术细节还不太多。不过就像之前《AGI万字长文》所讲,芯片进一步提高算力受到量子力学理论限制,因此此次的迭代仍然是4nm制程。如果继续在硅基上迭代,多块芯片打包(如GB200),(3D)堆叠架构等是一定要做的;这里考验的不仅仅是计算速度、传输带宽、更是能耗和散热。