以及,思考这些技术产生的商业与社会影响。
[作者] MK, Lian
2024年3-4月AGI主线进展
开源奋起直追——接近GPT4水平?:LLaMA3、Mistral、Cohere、通义千问、苹果OpenELM、微软Phi-3
超长上下文窗口不断探索:Google infini-transformer、Jamba
AI音频跃进1:语音合成的情感开始出现:微软Natural speech03、Hume AI
AI音频跃进2:AI作曲:Suno v3 、Udio
3-4月的主线进展与上个月相比稍少一些。2023年的经验也是12月-3月大招比较多,猜测可能这一段是各厂考核KPI、各校评比的季节……
正文
<1>开源奋起直追
LLaMA 3:接近GPT-4水平的开源模型?
有意思的是,当初大语言模型还没有商业化的时候,OpenAI、Google都花不少精力去研究数据量和模型参数怎么配比可以让训练算力的性价比最高,当时的结论是数据量和参数量需要等比例增加。而随着大语言模型被广泛使用,推理算力的消耗远远超过训练算力,而推理需要的算力和参数量成正比,和训练数据无关,因此像Meta这样多怼训练数据少加参数,变成了推理上更加经济的选择。
开源社区的繁荣
Mistral在一个月内一口气开源了三个模型:Mistral 7B v0.2, Mistral 22B v0.2, Mixtral 8×22B;
Cohere把最新的模型Cohere R+开源了出来;
AI21 Labs新架构的Jamba模型也开源了;
阿里开源了110B的Qwen1.5,测评的纸面能力是很能打的;此外,Qwen2.0也在路上了;
微软把scaling up的任务交给了OpenAI,自己专注做小型化模型,本月发布了Phi-3系列,其中3.8B的Mini已经开源出来了,还有7B和14B两个版本应该也会开源,似乎是想塞到端侧,榜单分数甚至能和GPT 3.5-turbo打打擂台,但Phi 系列之前都有在benchmark上过拟合的问题,这回究竟表现如何可能还难说。
连苹果都罕见的开源了OpenELM系列四个语言模型,不过有两个连10亿参数都没有,很勉强能称上“大”模型,但也因此可以轻松地部署到端侧,不知道6月的WWDC能否看到更多苹果在端侧上的动作。
虽然每家开源的程度不尽相同,整体上开源是在向闭源的头部水平不断接近的,但开源比闭源落后一个代际仍然成立。以及,果然Grok-1.5发布了,但也没再提开源的事。以及,OpenAI面临的压力也越来越大,GPT5呼之欲出而没出,可能还是在“憋大招”。
此外,国内大厂近期的喊话也比较频繁。百度、商汤、腾讯等都有新的不错的模型打榜数据;各家PR的落地场景也开始多了起来。实测效果可能还要先让子弹飞一会来看。
<2> 超长上下文窗口:持续探索 or 接近终结?
<3> AI音频跃进1:语音合成的情感开始出现
“有感情的语音对话”是音频领域的真正明珠。因为只有这个技术成熟,虚拟人重要的拼图才算做好。与视频对比,我不认为音频更难,但音频的市场还是比视觉要小得多,所以做的人相对少点。目前在开会等商业场景上的语音对话已经成熟,但“有感情的对话”因为涉及到理解能力,所以要慢得多。但我们在这几个月也看到了不少明确进展。
更多demo见:https://speechresearch.github.io/naturalspeech3/
前DeepMind科学家创办的Hume AI在3月份融了5000万美金,也火了一把。他们的重点方向是通过语音、表情等理解人类的情感,最近推出了一个可以一边对话一边分析说话人情感的AI,号称“共情LLM”。但现在的效果还不算特别自然。
<4> AI音频跃进2:AI抖音神曲马上到来
音频领域另一个大场景是音乐,而且音乐启示比带感情的对话更容易一些。我们可以说,现在的AI音乐已经几乎成熟了。于是,一般水平音乐人们的生活也要像去年的画师一样被彻底颠覆了……
Suno一直是AI生成音乐效果最好的公司之一,3月推出了他们的V3版本,效果确实惊艳。
Suno:写一首坠入爱河的歌
同时另一家AI音乐生成赛道的创业公司Udio也推出了Beta版本,用户反馈Udio 的音质更高、可控性更好, Suno 创造性和表现力更强、生成的歌曲更丰富。
Udio:Bohemian Rhapsody in Blue
更多demo见:https://www.udio.com