普通人的AGI技术月评 2024.06 | Apple, Sonnet3.5, 视频生成, AI 3D

文摘   2024-07-08 12:30   上海  
排除噪音,抓住主线
“技术月评”的目的不是全面及时,而是退一步抓住重点,避免过载。
以及,思考这些技术产生的商业与社会影响。

2024年6月AGI主线进展
  • Apple: AI原生OS的雏形
  • Claude Sonnet 3.5:战火烧到OpenAI家门口
  • 视频生成第二场开打:Runway Gen3/快手可灵
  • AI 3D开始浮出水面:Meta 3D Gen
  • 上下文缓存技术:Google/月之暗面
  • OpenAI 拟转型盈利公司,API断供中国:捅破窗户纸,实际影响不大

[作者] MK, Lian


正文
<1>苹果:
AI原生OS的雏形

WWDC上苹果讨巧地玩了个缩写梗重新定义AI(Apple Intelligence),之后股价谜一般的先降后升。我的理解是:发布会上的零碎功能并不惊艳,而且让人误解苹果没有模型,因此最开始市场反应平淡;但Apple在会后结合今年上半年的模型和芯片布局作了一番PR之后,市场才反应过来:Apple玩的很大!

我看到的是:Apple在“AI原生操作系统”上有着全链路布局和实际进展。而这种"芯片-硬件产品-OS-模型-流量入口"全生态自研的垄断打法,是任何竞争对手都没办法比拟的。

硬件-Mac搭配M系列芯片的Mac在端侧跑大模型上有天然优势:显存-内存一体化的设计可以装下更大的模型。如M2-Ultra最大可以支持192GB内存,M3-Max可以支持128GB内存;对比来看,最高端的游戏显卡Nvidia-4090只支持24GB的显存。举个例子:llama3-70B的模型在FP16量化后大小在140G左右,压缩到Int4量化在40GB左右;在Mac上可以轻松运行,在PC上就没法实现。

再仔细看,Apple自研的MM1-30B模型就是为了Mac定制的,这个大小的模型经过适度压缩(FP16-Int8)是可以在中端Mac上运行的(32G/64G内存)。总结起来,Mac是当前唯一一个可以在本地完成较复杂模型推理任务的消费级硬件产品;而PC则只能在本地运行更小的模型=无法完成复杂任务/效果差。

硬件-iPhone:iPhone现在搭载基于A16/17的SoC,最大支持8GB内存,且因为手机电池容量和发热限制,和其他手机一样,主要的模型能力都需要云上提供,端侧只能跑1-3B模型,做最简单任务。与之匹配的是OpenELM或类似的端侧小模型。

iOS+增强版Siri:iOS理论上可以通过Root权限拿到所有数据——当然,受节操和与各APP的博弈制约,Apple也不会随意去碰APP里的数据。不过加持了模型和用户数据的Siri会成为一个新的大流量入口。这会让Apple与各个App的博弈中有更大优势。此外,系统权限还造就了另外的可能性。APP“去皮化”:也就是说,一些APP将不会在前台显示,而是由Siri和模型直接调用APP的后台服务……那么,很多APP本身也就没有存在必要了。

AI读屏Ferret UI。当然,APP们不会束手就擒交出数据和服务。所以最简单做法就是通过读屏来获取APP的信息和服务。但这种方法是不自然和低效的,应该是过渡方案。

AR-Vision Pro。虽然市场反应一般,但我认为AR至少会是下一个颠覆性硬件,苹果也一定会继续在这个上面投入——产品形态可能会有改变,但AR虚拟世界其实已经近了很多:AI无限生成场景很快就会实现。接下来就要看硬件的创新是否能补上最后的拼图:显示频率-重量-续航。

总结来看,Apple在AGI潮流中其实一点都不慌:硬件+OS的粘性和护城河要远远高于模型。Apple只需要在模型上适度投入,跟上不落伍,然后不断投入芯片、硬件产品和OS就可以收获到垄断利润。

以及,按照Apple的调性,接入GPT-4o只是过渡方案,最终都会内部全闭环自研实现

<2> Claude Sonnet 3.5:

战火烧到OpenAI家门口

Anthropic发布了Claude Sonnet 3.5,价格和Sonnet 3维持不变,但能力超过Opus 3,并在一些维度超过了GPT4o。对比大模型能力一直都是业界难题,因为各家都会专门优化来打榜,所以很难直接比较各种模型的能力。不过从用户反馈来看,Sonnet3.5和GPT4o差不多在同等水平了

另外,Sonnet3.5一看就是冲着4o的语言和图片理解能力去的,连价格两家都又一次杠上了,4o的价格是$5/$15,Sonnet 3.5就给了一个$3/$15。不知道Claude版的原生多模态生成什么时候能出来。

面对Anthropic的穷追猛打,OpenAI并没有专门应对……要么是说武器库用得差不多了,要么是只留着应对Google。

<3> 视频生成第二场开打:

Runway Gen3/快手可灵

OpenAI的GPT-4o原生多模态生成能力继续跳票,今年秋季才会大范围面向付费用户,Sora也迟迟不见开放的迹象……这大概说明了Sora技术路线的推理成本优化不易;与此同时,也让很多其他公司有机会出来露脸。

时隔近一年,Runway终于拿出了新一代视频模型Gen3。当前可用的模型中Runway Gen3综合实力是最强的:审美、物理规律、图像稳定性理解都接近以假乱真;生成速度也不错;虽然视频时长只有10秒,作为一个分镜时长也足够了。之后还会兼容更多精细控制功能(比如图生视频、镜头控制、导演模式等)。在商业化应用中,可控的素材生成才是硬道理,否则只是中看不中用。这些都充分展现了Runway五年多来的数据、技术和落地经验的积累。

下面的Demo是官网演示,实测使用可能会略打折扣。但从海外博主大量实测视频上来看,Demo的含金量还是很高的。

Runway Gen3 Official Demo

快手的可灵也给我们带来了很大的惊喜:画面非常逼真,在物理规律理解上可圈可点,也可以看出训练数据中用了快手积累的大量中国特色的视频素材。可灵更新迭代也很快,上线不到一个月又进一步支持了图生视频和视频继续生成的功能,上周又支持了一次生成10s视频,以及运镜控制和高清生成。尽管还有些瑕疵(比如下面官方Demo中鸟的羽毛的不稳定),但可灵还是能够在一众产品中脱颖而出:它不只是停留在demo里,而且可以让用户真正能体验到惊艳的效果。于是,现在各个大厂/创业公司都在疯狂地挖可灵的人……

快手可灵官方Demo

附录:主要视频生成模型2024.6

<4>AI 3D开始浮出水面:

Meta 3D Gen

Meta推出了AI 3D生成的3D Gen,其实就是把之前的文本生成3D资产和文本生成纹理的两个模型分步组合到了一起。从demo的效果来看还是非常不错的,不论是3D的形状还是纹理细节都比较优秀,尤其是涉及到多角色/物体的复杂场景生成时,比其他模型更好一些。只是现在除了demo视频,还没有其他开放使用的方式。

论文里作为比较的其他几个AI生3D模型都是创业公司做的,其中三家是中国团队:VAST Tripo3D,Meshy v3和影眸科技的Rodin Gen 1。Meta的这次秀肌肉也意味着大厂正式开始卷3D这个赛道了……以及,3D生成作为公认的比较难以实现的技术,也开始有了松动,接下来一定会有更多其他公司跟上。

Meta 3D Gen Official Demo

<5> 长上下文缓存技术:

Google & 月之暗面

长上下文缓存技术的目的是大幅降低推理成本。虽然市场声量不大,但这个技术在实际应用中的商业价值巨大。国内外主打长上下文的两家:Google、月之暗面在服务中都有提供。“长上下文缓存技术” 简单来讲就是当模型需要根据同一段上文多次推理时,可以把计算的中间状态缓存下来,再推理时就可以省去前面这段计算的时间和成本。公共上文越长,反复调用次数越多,成本和回复时延节省得也越多,可以把输入token的成本可以降低一个数量级。

这其实也不算新技术,英伟达的TensorRT-LLM库中也有类似的实现方式;不过模型厂商2B提供这样的技术后,会有更多应用层的开发者有机会找到更多的场景。按大模型行业的卷法,过不了多久长上下文的成本会被卷得足够低,in-context learning的上限也会逐渐被探索清晰第二,“长上下文缓存“也可能是构建大模型“系统2——慢思考”能力的重要前置条件。“系统2——慢思考”能力是让模型可以模仿大脑,实现多步规划推理、反思和长记忆、运用工具等能力,也是现在大家还在尝试的Agent的关键能力。

"Upgrade", by Yifei Gong 2024

<6> 

OpenAI拟转型盈利公司,API断供中国:

撕开窗户纸,但实际影响不大

OpenAI从来没有对国内用户提供过服务。不过各家“OpenAI国产平替”们在PR上可是卯足了劲。这一次OpenAI的意思是要进一步增加技术投入来阻止来自中国的请求。其实OpenAI一直在这样做,但这次官宣的目的明显是向美国鹰派“表忠心”的公关事件。但结合最近美国内部对于“禁止模型开源”的讨论,从侧面也表明了美国政治氛围对于AGI技术的态度更加偏向保守、敌视,以实现全球唯一霸权为目标。

实际操作中,微软Azure依旧可以在海外的云服务器上为中国的客户提供OpenAI的模型服务。以及访问OpenAI一直都是个动态攻防的过程,OpenAi加码之后,国内各厂也会加码——毕竟大量模型训练数据都是靠GPT吐出来,没法访问是肯定不行的。

另外,Sam Altman终于撕下遮羞布,开始提出要让OpenAI转变为盈利公司。终究他想要的只是金钱与权力。我对碳基生命未来的担忧又增加了……

Dark Forest, by Yifei Gong 2024

往期文章

普通人的AI自由
AGI降临的世界中,我们每个人的自由向导。