DeepMind 提出可交互生成式世界模型 Genie,有什么意义?和 Sora 比有什么不同?

乐活   科技   2024-02-29 00:09   英国  
我从容易理解的角度说一下,顶蘑菇大家都玩过吧。
Sora做的是:你给它一个prompt,比如生成一段在森林里顶蘑菇的视频,然后它就会在一段时间内给你提供一个顶蘑菇的视频。
Genie做的是:你给他一张顶蘑菇的截图,给你一个游戏手柄,然后图片会动起来,动的逻辑会跟你手柄的操作逻辑是一致的。
这俩有本质上的不同,Sora是端到端的,你提供prompt,它提供视频,中间没有交互;Genie提供了交互的机会,理论上你不停,储存足够,电力不停,那视频就会一直持续。
这也是Genie名字的来源Generative Interactive Environment(生成式可交互环境)。
Generative生成式说的是视频生成这一部分,Interactive可交互就是我说的游戏手柄,Environment环境就是Genie所说的世界模型,它是逐帧的可交互的世界模型。    
例子1图片:

例子1生成视频:
例子2图片:    
例子2视频 :  
你可以从这些视频上找到很多熟悉的身影,比如魂斗罗之类的。
非常惊艳的作品。
我没看到可以开枪的那类型视频,如果可以实现,那可以在二维世界中验证,这个世界模型是否可以理解被击毁、碎片掉落这类型的逻辑,如果可以,那同样的逻辑就可以迁移到三维世界里。
         

 

         

 

   

平凡的平凡
偶然所做。
 最新文章