2月15日,继ChatGPT等一系列重量级模型之后,OpenAI发布了一款能够通过文本生成视频的创新大模型—Sora,再次引发了全世界的惊呼。
Sora是在图像生成模型DALL-E基础上开发的,可以根据用户的文本提示创建最长60分钟的高画质视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。
Sora的问世可能会为影视制作、短视频创作、广告业等领域带来前所未有的革命性变革。
在日本工作生活的同学对Sora这个词应该不会陌生,就是汉字“空(そら)”,即天空之意,以示其无穷的创造潜力。OpenAI并未单纯地把Sora作为视频模型,而是作为“世界模拟器”。
废话不多说,让我们先来感受一下Sora的强大。
例1:时尚美女东京街头漫步
一位时尚的女士穿着黑色皮夹克、长红裙和黑靴,在充满温暖霓虹灯光和动感城市标志的东京街头漫步。她拎着一只黑色手提包,戴着太阳镜,涂着红色口红。她走路时既自信又随意。街道湿润且具有反射效果,彩色灯光在地面上形成了镜像效果。许多行人在街上来往。
▌生成视频
是不是被震撼到了?不仅超级逼真,连路面和墨镜的反射光线都生成出来了。
例2: 迪斯尼动画
▌Prompt
动画场景特写一只小体型毛茸茸的怪物跪在一支融化的红色蜡烛旁边。艺术风格为3D且逼真,重点在于光照和纹理。画面的氛围充满了惊奇和好奇,怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮感,仿佛它第一次探索周围的世界。使用温暖的色彩和戏剧性的光照进一步增强了图像的舒适氛围。
▌生成视频
简直是炸天了,我觉得我也可以制作迪斯尼大片了,以后电影制作是不是只需要把场景描述出来制作就完成了?
例3: 意大利斑点狗
▌Prompt
摄像机直接对准了意大利布拉诺岛上色彩缤纷的建筑。一只可爱的斑点狗通过一楼建筑的窗户向外望。许多人在建筑物前的运河街道上行走和骑自行车。
▌生成视频
完全想象不出这是通过AI生成出来的视频,就算是专业摄影师也不一定能如此完美地体现这一场景。
大家如果想要阅览更多生成视频,可以去OpenAI公布的官方网站感受一下什么叫做炸裂创新!
https://openai.com/sora
但目前Sora尚未对一般用户公开,仅限于研究团队以及部分设计师,电影制作人使用。据说没有公开的理由是,Sora性能实在太强大,需要确认是不是会生成一些有害的内容。
作为一个软件工程师,除了感叹技术进步之快,总是想知道背后一些更深层面的知识。我们来看一下实现Sora的几个关键词。
从架构上看,Sora是一个基于latent空间的transformer diffusion model。它首先是训练一个video compression network来将视频压缩到一个低维度的latent空间,然后再把latent转成spacetime patches。这些spacetime patches可以看成tokens送入基于transofomer架构的扩散模型。
★ Spacetime Patches
Spacetime Patches是Sora创新的核心,在传统的Vision Transformers中,我们使用一系列图像 “补丁(patches)” 来训练模型进行图像识别,而不是像训练language transformers那样使用单词来进行训练。
通过 "补丁(patches)",我们可以摆脱卷积神经网络对图像处理的束缚。然而,vision transformers 受到图像训练数据的限制,这些数据的大小和长宽比都是固定的,这就限制了图像的质量,并需要对图像进行大量的预处理。
通过将视频处理为补丁序列(sequences of patches),Sora保持了原始的长宽高和分辨率,这对捕捉视觉数据的本质至关重要,使模型能够更加准确地学习,从而使Sora实现了近乎神奇的动画逼真程度。
★ Video compression network
Video compression network(视频压缩网络)是一种减少视觉数据维度的网络。该网络接收原始视频作为输入,并产出一个同时在时间和空间上被压缩了的潜在表征。Sora利用这种被压缩的潜在空间进行训练,并据此生成视频。
★ Spacetime Latent Patches
当接收到一个已压缩的视频输入时抽取一连串的时空块,它们在Transformer模型中扮演着类似token的角色。这套方法同样适用于图片处理,因为图片本质上可以被视作是单帧的视频。通过这种基于块的数据表示方法,Sora能够处理不同分辨率、持续时间和宽高比的视频和图片。
在模型推断阶段,Sora可以通过将随机初始化的块排列成一个适当大小的网格,来控制所生成视频的尺寸。Sora保持了原始的长宽比和分辨率。这种保留对于捕捉视觉数据的真实本质至关重要,可使模型从更准确的世界表征中学习,从而赋予Sora其近乎魔法的准确性。
ITgo技术者之家,持续关注在日IT人关心的各种资讯,打造在日技术者的专属社区。欢迎留言交流互动。
ITgo