普通人的AGI技术月评 2024.04

文摘   科技   2024-04-28 11:03   新加坡  
排除噪音,抓住主线
“技术月评”的目的不是全面及时,而是退一步抓住重点,避免过载。
以及,思考这些技术产生的商业与社会影响。

[作者] MK, Lian


‍‍‍‍‍‍‍

2024年3-4月AGI主线进展

  • 开源奋起直追——接近GPT4水平?:LLaMA3、Mistral、Cohere、通义千问、苹果OpenELM、微软Phi-3

  • 超长上下文窗口不断探索:Google infini-transformer、Jamba

  • AI音频跃进1:语音合成的情感开始出现:微软Natural speech03、Hume AI

  • AI音频跃进2:AI作曲:Suno v3 、Udio


3-4月的主线进展与上个月相比稍少一些。2023年的经验也是12月-3月大招比较多,猜测可能这一段是各厂考核KPI、各校评比的季节……


正文

<1>开源奋起直追

LLaMA 3:接近GPT-4水平的开源模型?

上周Meta开源了Llama  3-8B和Llama 3 - 70B两个模型,分别有预训练和指令微调两个版本,支持 8K 上下文长度;未来还有一个Llama 3-400B版本,虽然目前还未完成训练,但Meta公布的当前版本的在benchmark上的测评结果显示已接近GPT-4水平,超越Gemini Pro 1.5。当然这个结果可能有水分,还是要等实测体验效果。

Scaling Law不只是参数量的规模化,也是数据量的规模化。

Llama3 展示出了Meta的算力和数据优势:Meta透露Llama3 是在两个24000张H100集群上训练的,光买这些卡估计就得花十几亿美元;数据方面,塞进去了比Llama 2多6倍的训练语料,而且这些语料经过非常的精细预处理,质量很高,因此虽然模型本身参数架构上做的改变不多,但工程化、大规模的数据带来的模型效果提升还是非常可观的。另外,根据Meta提供的信息,为了提升Llama 3的多语言能力,训练语料中5%以上是30种非英语语言的语料,也就是说,所用90%以上的训练语料都是英文的。

有意思的是,当初大语言模型还没有商业化的时候,OpenAI、Google都花不少精力去研究数据量和模型参数怎么配比可以让训练算力的性价比最高,当时的结论是数据量和参数量需要等比例增加。而随着大语言模型被广泛使用,推理算力的消耗远远超过训练算力,而推理需要的算力和参数量成正比,和训练数据无关,因此像Meta这样多怼训练数据少加参数,变成了推理上更加经济的选择。

现在,另一个问题是:Meta的下一个模型是否还是开源的呢?

开源社区的繁荣

  • Mistral在一个月内一口气开源了三个模型:Mistral 7B v0.2, Mistral 22B v0.2, Mixtral 8×22B;

  • Cohere把最新的模型Cohere R+开源了出来;

  • AI21 Labs新架构的Jamba模型也开源了; 

  • 阿里开源了110B的Qwen1.5,测评的纸面能力是很能打的;此外,Qwen2.0也在路上了;

  • 微软把scaling up的任务交给了OpenAI,自己专注做小型化模型,本月发布了Phi-3系列,其中3.8B的Mini已经开源出来了,还有7B和14B两个版本应该也会开源,似乎是想塞到端侧,榜单分数甚至能和GPT 3.5-turbo打打擂台,但Phi 系列之前都有在benchmark上过拟合的问题,这回究竟表现如何可能还难说。

  • 苹果都罕见的开源了OpenELM系列四个语言模型,不过有两个连10亿参数都没有,很勉强能称上“大”模型,但也因此可以轻松地部署到端侧,不知道6月的WWDC能否看到更多苹果在端侧上的动作。

虽然每家开源的程度不尽相同,整体上开源是在向闭源的头部水平不断接近的,但开源比闭源落后一个代际仍然成立。以及,果然Grok-1.5发布了,但也没再提开源的事。以及,OpenAI面临的压力也越来越大,GPT5呼之欲出而没出,可能还是在“憋大招”。

来源:Ark Invest

此外,国内大厂近期的喊话也比较频繁。百度、商汤、腾讯等都有新的不错的模型打榜数据;各家PR的落地场景也开始多了起来。实测效果可能还要先让子弹飞一会来看。

<2> 超长上下文窗口:持续探索 or 接近终结?

Transformer因其本身的限制,处理越长文本需要的算力是几何增长的。有许多研究都在探索线性注意力,也就是让需要的算力和文本长度之间呈线性增长,在处理长文本时就可以大大减少算力成本。
除了之前国内“月之暗面”的Kimi主打“超长文本”之外,国际上有一派认为“超长文本”是解决模型记忆问题的“最干净”的方式。举个极端例子:当我们把一个人一生的信息都输到了文本框里,是否我们就能复现这个人的思维呢?
这里最突出的工作是谷歌团队的 Infini-Transformer,这个工作算是终结了“谁更长”的争论,因为这个架构额可以容纳无限长文本。当然,关于效果和推理成本需要优化的东西还很多。除了Google之外,AI21 Labs缝合了Transformer和Mamba的Jamba,也是对于长文本的探索。

另一派认为长文本并不能真正解决记忆问题。记忆问题仍然需要通过对于“快思考”和“慢思考”的概念来做模型结构、记忆结构上的更深层探索。

<3> AI音频跃进1:语音合成的情感开始出现

“有感情的语音对话”是音频领域的真正明珠。因为只有这个技术成熟,虚拟人重要的拼图才算做好。与视频对比,我不认为音频更难,但音频的市场还是比视觉要小得多,所以做的人相对少点。目前在开会等商业场景上的语音对话已经成熟,但“有感情的对话”因为涉及到理解能力,所以要慢得多。但我们在这几个月也看到了不少明确进展。

微软亚研院新发布的NatrualSpeech3 应该是目前效果最好的AI语音合成模型,在韵律、情感等语音特征的表现都更加自然,而且只需要3秒的音频就可以非常逼真地模仿特定人声。


更多demo见:https://speechresearch.github.io/naturalspeech3/ 

前DeepMind科学家创办的Hume AI在3月份融了5000万美金,也火了一把。他们的重点方向是通过语音、表情等理解人类的情感,最近推出了一个可以一边对话一边分析说话人情感的AI,号称“共情LLM”。但现在的效果还不算特别自然。

<4> AI音频跃进2:AI抖音神曲马上到来

音频领域另一个大场景是音乐,而且音乐启示比带感情的对话更容易一些。我们可以说,现在的AI音乐已经几乎成熟了。于是,一般水平音乐人们的生活也要像去年的画师一样被彻底颠覆了……

Suno一直是AI生成音乐效果最好的公司之一,3月推出了他们的V3版本,效果确实惊艳。

Suno:写一首坠入爱河的歌

更多demo见: https://suno.com/blog/v3 

同时另一家AI音乐生成赛道的创业公司Udio也推出了Beta版本,用户反馈Udio 的音质更高、可控性更好, Suno 创造性和表现力更强、生成的歌曲更丰富。

Udio:Bohemian Rhapsody in Blue

更多demo见:https://www.udio.com

就像手机摄像头催生出了UGC视频一样:对大众来说,Suno和Udio第一次让音乐创作的门槛变得这么低,UGC音乐指日可待。这些音乐可能还不到顶尖音乐人的水准,但作为短视频的配乐绝对够格,很可能下一首抖音爆款神曲就是AI生成的。



往期文章

普通人的AI自由
AGI降临的世界中,我们每个人的自由向导。