以及,思考这些技术产生的商业与社会影响。
2024年8月AGI主线进展
迈向大模型游戏引擎:Google GameNGen
多模态百家争鸣:产品层出不穷,技术向商用发力
机器人进展:Figue 02, 1X Neo
Her? : Gemini Live, GPT 4o, 科大讯飞
OpenAI + Antrhopic 与美国政府签订安全协议
[作者] MK, Lian
<1>
Google GameNGen
迈出大模型游戏引擎的第一步
自从AIGC热潮的兴起,最大的想象空间之一就是游戏制作:用AI建立一个内容实时生成、场景无限扩展、有独立个性NPC的虚拟游戏世界。每个人都可以有无限的游戏体验,甚至可以生产UGC游戏。但实际上这个宏大想法的落地仍然很难:实时生成稳定性-合理性不足,场景生成质量-速度都不成熟,AI NPC仍然无法解决记忆问题……所以说AI当前在游戏制作的主要应用仍然只能停留在游戏美工-设计的过程中的有限场景提效。
具体来讲,谷歌发布的GameNGen是一个条件化控制的Diffusion模型:先让一个AI学会玩游戏,再让模型学习AI的操作和当前游戏画面如何生成下一帧画面。模型学会之后,只要有初始画面,再输入玩家的操作,再加上每秒20帧的图像输出速度,游戏就像模像样地跑起来了。
但GameNGen还是有很大的局限,现在的路径完全依靠学习已有的游戏操作和画面,没法生成全新的游戏资产、全新的玩法,泛化能力有限,可以给现有的游戏生成新的关卡,但无法凭空造出一个全新的游戏。而且记忆长度也有限,只能维持3.2秒。
已经可以想象,如果大模型能理解更多指令(比如游戏的世界观、游戏的基本玩法),加上更强的泛化能力和实时的视频推理速度,完全基于大模型的全新游戏体验也就达到了。
<2>
多模态百家争鸣:
产品层出不穷,技术向商用发力
2A.产品层出不穷
Flux 1系列模型是Stable Diffusion的核心团队离开Stability.AI后创建的Black Forest Labs的王者归来之作,生成的图像质量非常高。开源的小版本还包括多种不同的风格LoRA,其中的现实主义风格生成的图像因为太过逼真引发了热议。此外,Flux最近也上线了文生视频功能。
智谱开源了5B版本的视频模型
Luma更新1.5版本模型,上线了镜头控制功能
字节的视频生成产品即梦app端上线(目前模型效果还比较一般,据说下半年会有比较大的提升)
昆仑万维推出了AI短剧生成平台SkyReels,还在内测阶段,看demo视频生成模型效果一般;主打把编剧、分镜、视频生成的工作流串联起来
2B. AI 视频技术向商用发力
我会猜测Viggle在底层模型生成质量上下的功夫有限,但在降低推理成本的技术上应该是业界一流的:这样才能支持他们Discord上超4M的关注数和每天大量的免费视频生成。但这种公司如何变现我仍然看不太懂:鬼畜搞笑视频使用者并不会付费。如果产品形态不变化,可能广告是唯一的出路。
大多数一线厂商走的是更面向商业的技术路线。和赚吆喝不同,商业路线要求生成的内容可以准确编辑、可以有确定的文字和Logo、可以保证人物、商品不变形、可以控制拍摄角度……但当前AI视频生成在商用上只能说刚刚起步。麦当劳日本和LumaLabs共同推出的AI广告已经是当前业界最高水准,不过目前视频的“AI味”还很浓,可以新事物的营销噱头,但大量使用并不会有很好的转化效果。
麦当劳日本广告-由Luma生成
除了ControlNeXt之外,本月还有PixVerse更新了v2.5版本视频生成模型,让DiT模型也支持运动笔刷,Runway支持视频延长生成到40s,也显示着各家卷多模态的决心。
<3>
人形机器人: Figure 02和1X Neo
两家OpenAI参投的人形机器人公司都在8月推出了新款。Figure 02和前代相比,主要还是基础性能的提升,包括端侧算力、续航等等,应用也更集中在工业领域。1X Neo的野心更大,号称26年要实现产量过万,价格和一辆车差不多,真正走进C端用户的家庭中,也因此开始不断强调会确保机器人的安全性。
Figure 02 Demo
1X Neo Demo
其实机器人最卷的是国内,各种AI展会中最多的就是机器人。头部的有宇树科技、逐际动力、智元机器人等等,整个行业有大量冗余公司。现在仍然处在市场早期,这些公司中的大多数也会消失。
但对于有一定智力的AI机器人,我们需要问的问题不仅是他们是否有用,而是他们对于物理世界的入侵。如果科幻一点:当无人机、自动驾驶汽车、人型机器人的数量积累到一定程度的时候,AI发动革命的物理基础也就有了。
<4>
更快的语音交互:
Gemini Live、 ChatGPT高级语音模式、科大讯飞、豆包
如此多厂商加入战斗,至少说明了在陪伴/助手类赛道中,语音交互是比打字更好的产品形态。再更进一步,随着多模态能力进一步提升,Her将可以看见,也可以拥有形象甚至是身体。
<5>
OpenAI + Antrhopic 与美国政府签订安全协议
链接:https://www.nist.gov/news-events/news/2024/08/us-ai-safety-institute-signs-agreements-regarding-ai-safety-research
Observerd (2024), Yifei Gong, with Dall-E
前文