普通人的AGI月评2024.8 | AI游戏引擎，多模态&机器人百家争鸣

文摘 2024-09-05 11:53 新加坡

排除噪音，抓住主线

“技术月评”的目的不是全面及时，而是退一步抓住重点，避免过载。
以及，思考这些技术产生的商业与社会影响。

2024年8月AGI主线进展

迈向大模型游戏引擎：Google GameNGen
多模态百家争鸣：产品层出不穷，技术向商用发力
机器人进展：Figue 02, 1X Neo
Her? : Gemini Live, GPT 4o, 科大讯飞
OpenAI + Antrhopic 与美国政府签订安全协议

[作者] MK, Lian

正文

<1>

Google GameNGen

迈出大模型游戏引擎的第一步

自从AIGC热潮的兴起，最大的想象空间之一就是游戏制作：用AI建立一个内容实时生成、场景无限扩展、有独立个性NPC的虚拟游戏世界。每个人都可以有无限的游戏体验，甚至可以生产UGC游戏。但实际上这个宏大想法的落地仍然很难：实时生成稳定性-合理性不足，场景生成质量-速度都不成熟，AI NPC仍然无法解决记忆问题……所以说AI当前在游戏制作的主要应用仍然只能停留在游戏美工-设计的过程中的有限场景提效。

Google的GameNGen本身仍然无法做到一个完全可拓展的无限游戏，但这是迈向虚拟游戏世界的第一步；在这个技术的激励/压力下，各家游戏厂商也会把AI游戏的研发提到更高优先级。米哈游的联创蔡浩宇也发帖：未来的AI时代，只有最顶尖创作者的PGC游戏和UGC+AIGC的游戏。

具体来讲，谷歌发布的GameNGen是一个条件化控制的Diffusion模型：先让一个AI学会玩游戏，再让模型学习AI的操作和当前游戏画面如何生成下一帧画面。模型学会之后，只要有初始画面，再输入玩家的操作，再加上每秒20帧的图像输出速度，游戏就像模像样地跑起来了。

但GameNGen还是有很大的局限，现在的路径完全依靠学习已有的游戏操作和画面，没法生成全新的游戏资产、全新的玩法，泛化能力有限，可以给现有的游戏生成新的关卡，但无法凭空造出一个全新的游戏。而且记忆长度也有限，只能维持3.2秒。

已经可以想象，如果大模型能理解更多指令（比如游戏的世界观、游戏的基本玩法），加上更强的泛化能力和实时的视频推理速度，完全基于大模型的全新游戏体验也就达到了。

<2>

多模态百家争鸣:

产品层出不穷，技术向商用发力

2A.产品层出不穷

Flux 1系列模型是Stable Diffusion的核心团队离开Stability.AI后创建的Black Forest Labs的王者归来之作，生成的图像质量非常高。开源的小版本还包括多种不同的风格LoRA，其中的现实主义风格生成的图像因为太过逼真引发了热议。此外，Flux最近也上线了文生视频功能。

Flux现实画风LoRA效果

Ideogram推出了Ideogram 2.0模型，他们一直主打的是可以在图像中渲染文字，生成的质量相当不错。可控、精确的文字和Logo生成是最重要的商用功能之一。

国内的各家大厂也纷纷推出新的多模态模型，其中MiniMax的abab video 01模型是本月推出的视频生成模型中比较突出的，体感上已经追上国内外一流水平。现在技术第一梯队里除了Runway, LumaLabs, 快手可灵，还要加上Minimax。

MiniMax官方Demo短片

除此之外：

智谱开源了5B版本的视频模型
Luma更新1.5版本模型，上线了镜头控制功能‍‍
字节的视频生成产品即梦app端上线（目前模型效果还比较一般，据说下半年会有比较大的提升）
昆仑万维推出了AI短剧生成平台SkyReels，还在内测阶段，看demo视频生成模型效果一般；主打把编剧、分镜、视频生成的工作流串联起来

2B. AI 视频技术向商用发力

和去年图像生成技术发展类似，今年的视频生成技术也逐渐从炫技“赚吆喝”向商业化落地”赚钱”过渡。

“赚吆喝”重要的是可以弄出来酷炫特效或者鬼畜视频，这样可以大肆社交传播。最近拿到融资的Viggle就主打鬼畜换人视频：越是不真实\生成质量差就越是搞笑，越有DAU。

我会猜测Viggle在底层模型生成质量上下的功夫有限，但在降低推理成本的技术上应该是业界一流的：这样才能支持他们Discord上超4M的关注数和每天大量的免费视频生成。但这种公司如何变现我仍然看不太懂：鬼畜搞笑视频使用者并不会付费。如果产品形态不变化，可能广告是唯一的出路。

Viggle 用户作品

大多数一线厂商走的是更面向商业的技术路线。和赚吆喝不同，商业路线要求生成的内容可以准确编辑、可以有确定的文字和Logo、可以保证人物、商品不变形、可以控制拍摄角度……但当前AI视频生成在商用上只能说刚刚起步。麦当劳日本和LumaLabs共同推出的AI广告已经是当前业界最高水准，不过目前视频的“AI味”还很浓，可以新事物的营销噱头，但大量使用并不会有很好的转化效果。

麦当劳日本广告-由Luma生成

和LLM相比，AI图像与视频的好处在于天然距离商业变现更近，但难点在于“恐怖谷”效应：只有做到90分以上才有价值，90分以下都是0分。

技术上，本月最重要的进展是ControlNeXt，目的就是提升生成视频的可控性。贾加亚团队ControlNeXt在保持ControlNet高可控性的基础上，相比ControlNet快20%，降低了算力成本。

除了ControlNeXt之外，本月还有PixVerse更新了v2.5版本视频生成模型，让DiT模型也支持运动笔刷，Runway支持视频延长生成到40s，也显示着各家卷多模态的决心。

<3>

人形机器人: Figure 02和1X Neo

两家OpenAI参投的人形机器人公司都在8月推出了新款。Figure 02和前代相比，主要还是基础性能的提升，包括端侧算力、续航等等，应用也更集中在工业领域。1X Neo的野心更大，号称26年要实现产量过万，价格和一辆车差不多，真正走进C端用户的家庭中，也因此开始不断强调会确保机器人的安全性。

Figure 02 Demo

1X Neo Demo

其实机器人最卷的是国内，各种AI展会中最多的就是机器人。头部的有宇树科技、逐际动力、智元机器人等等，整个行业有大量冗余公司。现在仍然处在市场早期，这些公司中的大多数也会消失。

但对于有一定智力的AI机器人，我们需要问的问题不仅是他们是否有用，而是他们对于物理世界的入侵。如果科幻一点：当无人机、自动驾驶汽车、人型机器人的数量积累到一定程度的时候，AI发动革命的物理基础也就有了。

<4>

更快的语音交互：

Gemini Live、 ChatGPT高级语音模式、科大讯飞、豆包

在GPT-4o秀肌肉之后，各家都跟进了支持语音打断、低延时的语音通话功能，但这些其实只是GPT-4o的端到端原生多模态能力的必要不充分条件，用RTC+TTS等各种工程化手段也能实现，外界营造一种很快追赶上GPT-4o的错觉。

延时缩短到1s以内对用户体验是很大的提升，但要达到Her的水准，还需要依赖端到端原生多模态来理解更多的输入，再加上智商和情商，还是需要在模型层做更多的努力。

如此多厂商加入战斗，至少说明了在陪伴/助手类赛道中，语音交互是比打字更好的产品形态。再更进一步，随着多模态能力进一步提升，Her将可以看见，也可以拥有形象甚至是身体。

Her (2024), by Yifei Gong with Dall-E

<5>

OpenAI + Antrhopic 与美国政府签订安全协议

链接：https://www.nist.gov/news-events/news/2024/08/us-ai-safety-institute-signs-agreements-regarding-ai-safety-research

这条新闻在意料之中。具体来讲，是去年专门成立的美国政府AI Safety Institute可以访问和监测OpenAI和Anthropic的模型。推论来讲，未来美国大模型厂商在发布新模型之前需要经过美国政府审查。不过审查的目的应该是复杂的：一方面服务美国国内各种政治正确的要求，监管模型对于选举和舆论的引导；另一方面是从国家竞争力、国家安全触发，由鹰派政客推动限制模型的出口。当然模型本身的安全性（这里指反人类倾向）也会是监管的一部分，但按照目前对于模型机制、模型安全的研究和投入水平，我是持悲观态度的。

不过，这条新闻的曝光度不高，应该也是有意为之：当OpenAI, Anthropic都被明确插上国旗，American First的时候，那其他国家还是否敢用呢？

Observerd (2024), Yifei Gong, with Dall-E

前文

http://mp.weixin.qq.com/s?__biz=MzkyMTY1MTM4Mw==&mid=2247484785&idx=1&sn=c24a94a4a026f03b7db0f41597be1bd7

普通人的AI自由

AGI降临的世界中，我们每个人的自由向导。