普通人的AGI月评2024.8 | AI游戏引擎,多模态&机器人百家争鸣

文摘   2024-09-05 11:53   新加坡  
排除噪音,抓住主线
“技术月评”的目的不是全面及时,而是退一步抓住重点,避免过载。
以及,思考这些技术产生的商业与社会影响。

2024年8月AGI主线进展

  • 迈向大模型游戏引擎:Google GameNGen

  • 多模态百家争鸣:产品层出不穷,技术向商用发力

  • 机器人进展:Figue 02, 1X Neo

  • Her? : Gemini Live, GPT 4o, 科大讯飞

  • OpenAI + Antrhopic 与美国政府签订安全协议

[作者] MK, Lian


正文

<1> 

Google GameNGen

迈出大模型游戏引擎的第一步

自从AIGC热潮的兴起,最大的想象空间之一就是游戏制作:用AI建立一个内容实时生成、场景无限扩展、有独立个性NPC的虚拟游戏世界。每个人都可以有无限的游戏体验,甚至可以生产UGC游戏。但实际上这个宏大想法的落地仍然很难:实时生成稳定性-合理性不足,场景生成质量-速度都不成熟,AI NPC仍然无法解决记忆问题……所以说AI当前在游戏制作的主要应用仍然只能停留在游戏美工-设计的过程中的有限场景提效。

Google的GameNGen本身仍然无法做到一个完全可拓展的无限游戏,但这是迈向虚拟游戏世界的第一步;在这个技术的激励/压力下,各家游戏厂商也会把AI游戏的研发提到更高优先级。米哈游的联创蔡浩宇也发帖:未来的AI时代,只有最顶尖创作者的PGC游戏和UGC+AIGC的游戏。

具体来讲,谷歌发布的GameNGen是一个条件化控制的Diffusion模型:先让一个AI学会玩游戏,再让模型学习AI的操作和当前游戏画面如何生成下一帧画面。模型学会之后,只要有初始画面,再输入玩家的操作,再加上每秒20帧的图像输出速度,游戏就像模像样地跑起来了。

但GameNGen还是有很大的局限,现在的路径完全依靠学习已有的游戏操作和画面,没法生成全新的游戏资产、全新的玩法,泛化能力有限,可以给现有的游戏生成新的关卡,但无法凭空造出一个全新的游戏。而且记忆长度也有限,只能维持3.2秒。

已经可以想象,如果大模型能理解更多指令(比如游戏的世界观、游戏的基本玩法),加上更强的泛化能力和实时的视频推理速度,完全基于大模型的全新游戏体验也就达到了。

<2> 

多模态百家争鸣: 

产品层出不穷,技术向商用发力

2A.产品层出不穷

Flux 1系列模型是Stable Diffusion的核心团队离开Stability.AI后创建的Black Forest Labs的王者归来之作,生成的图像质量非常高。开源的小版本还包括多种不同的风格LoRA,其中的现实主义风格生成的图像因为太过逼真引发了热议。此外,Flux最近也上线了文生视频功能。

Flux现实画风LoRA效果
Ideogram推出了Ideogram 2.0模型,他们一直主打的是可以在图像中渲染文字,生成的质量相当不错。可控、精确的文字和Logo生成是最重要的商用功能之一。
国内的各家大厂也纷纷推出新的多模态模型,其中MiniMax的abab video 01模型是本月推出的视频生成模型中比较突出的,体感上已经追上国内外一流水平。现在技术第一梯队里除了Runway, LumaLabs, 快手可灵,还要加上Minimax。
MiniMax官方Demo短片
除此之外:
  • 智谱开源了5B版本的视频模型

  • Luma更新1.5版本模型,上线了镜头控制功能‍‍

  • 字节的视频生成产品即梦app端上线(目前模型效果还比较一般,据说下半年会有比较大的提升)

  • 昆仑万维推出了AI短剧生成平台SkyReels,还在内测阶段,看demo视频生成模型效果一般;主打把编剧、分镜、视频生成的工作流串联起来

2B. AI 视频技术向商用发力

和去年图像生成技术发展类似,今年的视频生成技术也逐渐从炫技“赚吆喝”向商业化落地”赚钱”过渡
“赚吆喝”重要的是可以弄出来酷炫特效或者鬼畜视频,这样可以大肆社交传播。最近拿到融资的Viggle就主打鬼畜换人视频:越是不真实\生成质量差就越是搞笑,越有DAU。

我会猜测Viggle在底层模型生成质量上下的功夫有限,但在降低推理成本的技术上应该是业界一流的:这样才能支持他们Discord上超4M的关注数和每天大量的免费视频生成。但这种公司如何变现我仍然看不太懂:鬼畜搞笑视频使用者并不会付费。如果产品形态不变化,可能广告是唯一的出路。

Viggle 用户作品

大多数一线厂商走的是更面向商业的技术路线。和赚吆喝不同,商业路线要求生成的内容可以准确编辑、可以有确定的文字和Logo、可以保证人物、商品不变形、可以控制拍摄角度……但当前AI视频生成在商用上只能说刚刚起步。麦当劳日本和LumaLabs共同推出的AI广告已经是当前业界最高水准,不过目前视频的“AI味”还很浓,可以新事物的营销噱头,但大量使用并不会有很好的转化效果。

麦当劳日本广告-由Luma生成

和LLM相比,AI图像与视频的好处在于天然距离商业变现更近,但难点在于“恐怖谷”效应:只有做到90分以上才有价值,90分以下都是0分
技术上,本月最重要的进展是ControlNeXt,目的就是提升生成视频的可控性。贾加亚团队ControlNeXt在保持ControlNet高可控性的基础上,相比ControlNet快20%,降低了算力成本

除了ControlNeXt之外,本月还有PixVerse更新了v2.5版本视频生成模型,让DiT模型也支持运动笔刷,Runway支持视频延长生成到40s,也显示着各家卷多模态的决心。

<3> 

人形机器人: Figure 02和1X Neo

两家OpenAI参投的人形机器人公司都在8月推出了新款。Figure 02和前代相比,主要还是基础性能的提升,包括端侧算力、续航等等,应用也更集中在工业领域。1X Neo的野心更大,号称26年要实现产量过万,价格和一辆车差不多,真正走进C端用户的家庭中,也因此开始不断强调会确保机器人的安全性。

Figure 02 Demo

1X Neo Demo

其实机器人最卷的是国内,各种AI展会中最多的就是机器人。头部的有宇树科技逐际动力、智元机器人等等,整个行业有大量冗余公司。现在仍然处在市场早期,这些公司中的大多数也会消失。

但对于有一定智力的AI机器人,我们需要问的问题不仅是他们是否有用,而是他们对于物理世界的入侵。如果科幻一点:当无人机、自动驾驶汽车、人型机器人的数量积累到一定程度的时候,AI发动革命的物理基础也就有了。

<4> 

更快的语音交互:

Gemini Live、 ChatGPT高级语音模式、科大讯飞、豆包

在GPT-4o秀肌肉之后,各家都跟进了支持语音打断、低延时的语音通话功能,但这些其实只是GPT-4o的端到端原生多模态能力的必要不充分条件,用RTC+TTS等各种工程化手段也能实现,外界营造一种很快追赶上GPT-4o的错觉。
延时缩短到1s以内对用户体验是很大的提升,但要达到Her的水准,还需要依赖端到端原生多模态来理解更多的输入,再加上智商和情商,还是需要在模型层做更多的努力。

如此多厂商加入战斗,至少说明了在陪伴/助手类赛道中,语音交互是比打字更好的产品形态。再更进一步,随着多模态能力进一步提升,Her将可以看见,也可以拥有形象甚至是身体。

Her (2024), by Yifei Gong with Dall-E


<5> 

OpenAI + Antrhopic 与美国政府签订安全协议

链接:https://www.nist.gov/news-events/news/2024/08/us-ai-safety-institute-signs-agreements-regarding-ai-safety-research

这条新闻在意料之中。具体来讲,是去年专门成立的美国政府AI Safety Institute可以访问和监测OpenAI和Anthropic的模型。推论来讲,未来美国大模型厂商在发布新模型之前需要经过美国政府审查。不过审查的目的应该是复杂的:一方面服务美国国内各种政治正确的要求,监管模型对于选举和舆论的引导;另一方面是从国家竞争力、国家安全触发,由鹰派政客推动限制模型的出口。当然模型本身的安全性(这里指反人类倾向)也会是监管的一部分,但按照目前对于模型机制、模型安全的研究和投入水平,我是持悲观态度的。
不过,这条新闻的曝光度不高,应该也是有意为之:当OpenAI, Anthropic都被明确插上国旗,American First的时候,那其他国家还是否敢用呢?

Observerd (2024), Yifei Gong, with Dall-E

前文

普通人的AI自由
AGI降临的世界中,我们每个人的自由向导。