重磅!OpenAI视频生成模型Sora再次震撼世界!

文摘   科技   2024-03-06 07:01   日本  

2月15日,继ChatGPT等一系列重量级模型之后,OpenAI发布了一款能够通过文本生成视频的创新大模型—Sora,再次引发了全世界的惊呼。

Sora是在图像生成模型DALL-E基础上开发的,可以根据用户的文本提示创建最长60分钟的高画质视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。

Sora的问世可能会为影视制作、短视频创作、广告业等领域带来前所未有的革命性变革。

在日本工作生活的同学对Sora这个词应该不会陌生,就是汉字“空(そら)”,即天空之意,以示其无穷的创造潜力。OpenAI并未单纯地把Sora作为视频模型,而是作为“世界模拟器”。

废话不多说,让我们先来感受一下Sora的强大。


例1:时尚美女东京街头漫步


▌Prompt

一位时尚的女士穿着黑色皮夹克、长红裙和黑靴,在充满温暖霓虹灯光和动感城市标志的东京街头漫步。她拎着一只黑色手提包,戴着太阳镜,涂着红色口红。她走路时既自信又随意。街道湿润且具有反射效果,彩色灯光在地面上形成了镜像效果。许多行人在街上来往。

▌生成视频

是不是被震撼到了?不仅超级逼真,连路面和墨镜的反射光线都生成出来了。


例2: 迪斯尼动画


▌Prompt

动画场景特写一只小体型毛茸茸的怪物跪在一支融化的红色蜡烛旁边。艺术风格为3D且逼真,重点在于光照和纹理。画面的氛围充满了惊奇和好奇,怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮感,仿佛它第一次探索周围的世界。使用温暖的色彩和戏剧性的光照进一步增强了图像的舒适氛围。

▌生成视频

简直是炸天了,我觉得我也可以制作迪斯尼大片了,以后电影制作是不是只需要把场景描述出来制作就完成了?


例3: 意大利斑点狗


▌Prompt

摄像机直接对准了意大利布拉诺岛上色彩缤纷的建筑。一只可爱的斑点狗通过一楼建筑的窗户向外望。许多人在建筑物前的运河街道上行走和骑自行车。

生成视频

完全想象不出这是通过AI生成出来的视频,就算是专业摄影师也不一定能如此完美地体现这一场景。

大家如果想要阅览更多生成视频,可以去OpenAI公布的官方网站感受一下什么叫做炸裂创新!

https://openai.com/sora 

但目前Sora尚未对一般用户公开,仅限于研究团队以及部分设计师,电影制作人使用。据说没有公开的理由是,Sora性能实在太强大,需要确认是不是会生成一些有害的内容。


作为一个软件工程师,除了感叹技术进步之快,总是想知道背后一些更深层面的知识。我们来看一下实现Sora的几个关键词

从架构上看,Sora是一个基于latent空间的transformer diffusion model。它首先是训练一个video compression network来将视频压缩到一个低维度的latent空间,然后再把latent转成spacetime patches这些spacetime patches可以看成tokens送入基于transofomer架构的扩散模型。

Spacetime Patches

Spacetime PatchesSora创新的核心,在传统的Vision Transformers中,我们使用一系列图像 “补丁(patches)” 来训练模型进行图像识别,而不是像训练language transformers那样使用单词来进行训练。

通过 "补丁(patches)",我们可以摆脱卷积神经网络对图像处理的束缚。然而,vision transformers 受到图像训练数据的限制,这些数据的大小和长宽比都是固定的,这就限制了图像的质量,并需要对图像进行大量的预处理。

通过将视频处理为补丁序列(sequences of patches)Sora保持了原始的长宽高和分辨率,这对捕捉视觉数据的本质至关重要,使模型能够更加准确地学习,从而使Sora实现了近乎神奇的动画逼真程度。

★ Video compression network

Video compression network(视频压缩网络)是一种减少视觉数据维度的网络。该网络接收原始视频作为输入,并产出一个同时在时间和空间上被压缩了的潜在表征。Sora利用这种被压缩的潜在空间进行训练,并据此生成视频。

★ Spacetime Latent Patches

当接收到一个已压缩的视频输入时抽取一连串的时空块,它们在Transformer模型中扮演着类似token的角色。这套方法同样适用于图片处理,因为图片本质上可以被视作是单帧的视频。通过这种基于块的数据表示方法,Sora能够处理不同分辨率、持续时间和宽高比的视频和图片。

在模型推断阶段,Sora可以通过将随机初始化的块排列成一个适当大小的网格,来控制所生成视频的尺寸。Sora保持了原始的长宽比和分辨率。这种保留对于捕捉视觉数据的真实本质至关重要,可使模型从更准确的世界表征中学习,从而赋予Sora其近乎魔法的准确性。

AI技术的进步以一种令人瞠目结舌的速度不断演化和发展,几乎每一天都有新的突破和应用出现。作为软件开发技术者,我们面临的挑战不仅仅是跟上技术的发展步伐,更是需要在这场科技革命中找到自己的位置,创造出真正有价值的解决方案。这不只是一个选择题,而是我们必须深思熟虑的命题。
为了帮助大家更好地理解AI的最新趋势,把握技术发展的脉络,并将其转化为实际的技能和解决方案,我们近期将举办一系列深入浅出的AI专题讲座。这些讲座将涵盖AI的各个方面,无论你是AI领域的新手还是希望进一步深化理解的资深开发者,都能在这里找到有价值的内容。请大家保持关注ITgo,不要错过这次学习的机会。

ITgo技术者之家,持续关注在日IT人关心的各种资讯,打造在日技术者的专属社区。欢迎留言交流互动。

ITgo


一手案件  一手人才


往期精彩回顾:





住民税大揭秘:怎么算?从哪省?终于整明白了!


软件工程师面试不合格理由第二位“技术力不足”,第一位是什么?


对日软件工程师如何写“本番障害報告書”


全银系统故障原因揭秘:NTT Data和全银联的深度分析!


日本小中高学生的成绩提高神器Rakumon又出新篇章


用中国驾照换日本驾照5步搞定!省时又省力!


高手程序员的几大特征


在日本护照过期了怎么办?2023中国领事APP换发护照攻略来了~


你离「高度人材」可能只差这篇文章的距离——帮你找到隐藏的加分项


保险证还能这么玩!在日IT人的专属福利~

ITgo技术者之家
ITgo技术者之家的理念以对日IT技术者为中心、在这里有您关心的高单价案件、热点技术讲座、生活互助、情感交流等各种话题,致力于打造专属于对日IT技术者的优质平台。
 最新文章