重磅！OpenAI视频生成模型Sora再次震撼世界！

文摘科技 2024-03-06 07:01 日本

2月15日，继ChatGPT等一系列重量级模型之后，OpenAI发布了一款能够通过文本生成视频的创新大模型—Sora，再次引发了全世界的惊呼。

Sora是在图像生成模型DALL-E基础上开发的，可以根据用户的文本提示创建最长60分钟的高画质视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。

Sora的问世可能会为影视制作、短视频创作、广告业等领域带来前所未有的革命性变革。

在日本工作生活的同学对Sora这个词应该不会陌生，就是汉字“空（そら）”，即天空之意，以示其无穷的创造潜力。OpenAI并未单纯地把Sora作为视频模型，而是作为“世界模拟器”。

废话不多说，让我们先来感受一下Sora的强大。

例1：时尚美女东京街头漫步

▌Prompt

一位时尚的女士穿着黑色皮夹克、长红裙和黑靴，在充满温暖霓虹灯光和动感城市标志的东京街头漫步。她拎着一只黑色手提包，戴着太阳镜，涂着红色口红。她走路时既自信又随意。街道湿润且具有反射效果，彩色灯光在地面上形成了镜像效果。许多行人在街上来往。

▌生成视频

是不是被震撼到了？不仅超级逼真，连路面和墨镜的反射光线都生成出来了。

例2: 迪斯尼动画

▌Prompt

动画场景特写一只小体型毛茸茸的怪物跪在一支融化的红色蜡烛旁边。艺术风格为3D且逼真，重点在于光照和纹理。画面的氛围充满了惊奇和好奇，怪物睁大眼睛，张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮感，仿佛它第一次探索周围的世界。使用温暖的色彩和戏剧性的光照进一步增强了图像的舒适氛围。

▌生成视频

简直是炸天了，我觉得我也可以制作迪斯尼大片了，以后电影制作是不是只需要把场景描述出来制作就完成了？

例3: 意大利斑点狗

▌Prompt

摄像机直接对准了意大利布拉诺岛上色彩缤纷的建筑。一只可爱的斑点狗通过一楼建筑的窗户向外望。许多人在建筑物前的运河街道上行走和骑自行车。

▌生成视频

完全想象不出这是通过AI生成出来的视频，就算是专业摄影师也不一定能如此完美地体现这一场景。

大家如果想要阅览更多生成视频，可以去OpenAI公布的官方网站感受一下什么叫做炸裂创新！

https://openai.com/sora

但目前Sora尚未对一般用户公开，仅限于研究团队以及部分设计师，电影制作人使用。据说没有公开的理由是，Sora性能实在太强大，需要确认是不是会生成一些有害的内容。

作为一个软件工程师，除了感叹技术进步之快，总是想知道背后一些更深层面的知识。我们来看一下实现Sora的几个关键词。

从架构上看，Sora是一个基于latent空间的transformer diffusion model。它首先是训练一个video compression network来将视频压缩到一个低维度的latent空间，然后再把latent转成spacetime patches。这些spacetime patches可以看成tokens送入基于transofomer架构的扩散模型。

★ Spacetime Patches

Spacetime Patches是Sora创新的核心，在传统的Vision Transformers中，我们使用一系列图像 “补丁（patches）” 来训练模型进行图像识别，而不是像训练language transformers那样使用单词来进行训练。

通过 "补丁（patches）"，我们可以摆脱卷积神经网络对图像处理的束缚。然而，vision transformers 受到图像训练数据的限制，这些数据的大小和长宽比都是固定的，这就限制了图像的质量，并需要对图像进行大量的预处理。

通过将视频处理为补丁序列（sequences of patches），Sora保持了原始的长宽高和分辨率，这对捕捉视觉数据的本质至关重要，使模型能够更加准确地学习，从而使Sora实现了近乎神奇的动画逼真程度。

★ Video compression network

Video compression network（视频压缩网络）是一种减少视觉数据维度的网络。该网络接收原始视频作为输入，并产出一个同时在时间和空间上被压缩了的潜在表征。Sora利用这种被压缩的潜在空间进行训练，并据此生成视频。

★ Spacetime Latent Patches

当接收到一个已压缩的视频输入时抽取一连串的时空块，它们在Transformer模型中扮演着类似token的角色。这套方法同样适用于图片处理，因为图片本质上可以被视作是单帧的视频。通过这种基于块的数据表示方法，Sora能够处理不同分辨率、持续时间和宽高比的视频和图片。

在模型推断阶段，Sora可以通过将随机初始化的块排列成一个适当大小的网格，来控制所生成视频的尺寸。Sora保持了原始的长宽比和分辨率。这种保留对于捕捉视觉数据的真实本质至关重要，可使模型从更准确的世界表征中学习，从而赋予Sora其近乎魔法的准确性。

AI技术的进步以一种令人瞠目结舌的速度不断演化和发展，几乎每一天都有新的突破和应用出现。作为软件开发技术者，我们面临的挑战不仅仅是跟上技术的发展步伐，更是需要在这场科技革命中找到自己的位置，创造出真正有价值的解决方案。这不只是一个选择题，而是我们必须深思熟虑的命题。

为了帮助大家更好地理解AI的最新趋势，把握技术发展的脉络，并将其转化为实际的技能和解决方案，我们近期将举办一系列深入浅出的AI专题讲座。这些讲座将涵盖AI的各个方面，无论你是AI领域的新手还是希望进一步深化理解的资深开发者，都能在这里找到有价值的内容。请大家保持关注ITgo，不要错过这次学习的机会。

ITgo技术者之家，持续关注在日IT人关心的各种资讯，打造在日技术者的专属社区。欢迎留言交流互动。

ITgo

一手案件一手人才

往期精彩回顾:

住民税大揭秘：怎么算？从哪省？终于整明白了！

软件工程师面试不合格理由第二位“技术力不足”，第一位是什么？

对日软件工程师如何写“本番障害報告書”

全银系统故障原因揭秘：NTT Data和全银联的深度分析！

日本小中高学生的成绩提高神器Rakumon又出新篇章

用中国驾照换日本驾照5步搞定！省时又省力！

高手程序员的几大特征

在日本护照过期了怎么办？2023中国领事APP换发护照攻略来了～

你离「高度人材」可能只差这篇文章的距离——帮你找到隐藏的加分项

保险证还能这么玩！在日IT人的专属福利～

ITgo技术者之家

ITgo技术者之家的理念以对日IT技术者为中心、在这里有您关心的高单价案件、热点技术讲座、生活互助、情感交流等各种话题，致力于打造专属于对日IT技术者的优质平台。

最新文章

日本2024年度十大流行语公布，看了榜单我惊呆了～

日本打工人的福音！明年各位到手收入很可能要涨了...

又一年日本“故乡税”完全手册来了，年末一起薅一波羊毛！

二维码会用尽？撕坏了也能读？揭秘二维码背后的冷热知识~

程序员的MBTI全解析！哪4类人格在编程界简直开挂？

124亿日元天价诉讼！日本通运和埃森哲如何从合作走到公堂的？

日本养老2000万已经不够了，要翻倍了...

AI可不只是ChatGPT，何不来试试Claude和Gemini？

从“i人”到“嘴替”：中日网络热词对照说说看～

日本小学生“未来想从事的职业”,IT榜上有名，排第一的竟然是......

为什么日本加油站油价各不同？油质不一样？哪更便宜？

孩子从幼儿园到大学要花多少钱？日本家庭的教育费用全解析！

她是OpenAI的CTO，34岁造出ChatGPT，明明可以靠脸吃饭…

【干货】AI代理的现状与未来（文末有彩蛋）

【速报】windows全球范围内大规模蓝屏，打工人喜提蓝屏假

日本角川集团遭遇无赖黑客，没想到这么惨！

清凉！日本这10个绝美避暑胜地，暑假去打卡！

日本IT工程师薪资被中国超越，全球排名26位，人才短缺何解？

盘点6月事关钱包的6个重要消息，你不会还不知道吧？

惨不忍睹的格力高SAP移行障害，谁的锅？

实例演示：用GPT-4o处理图像・音频・视频

带薪休假这事儿，日本能排第几？

说说向量数据库

4万日元定额减税的事儿，还有人不知道？

日本60%IT工程师感到不安：干不到退休年龄，出路在哪里？

日本应届生就职人气企业TOP10：这家公司连续十年上榜！

【3月IT资讯】这个月IT圈发生了什么？

说一说传统日企的职场礼仪

听说今年日本养老金涨了？快来看看涨多少！

重磅！OpenAI视频生成模型Sora再次震撼世界！

【2月IT资讯】这个月IT圈发生了什么？

2023年的确定申告你做了吗？

“斯人若彩虹，遇上方知有。”这句中式情话，用日语怎么说？

在日本年収千万实际到手有多少？已婚和未婚能差多少？

【1月IT资讯】这个月IT圈发生了什么？

AI时代软件工程师必备技能：Prompt Engineering

最新日本大学偏差值排行榜（2023-2024）

新年启程：深入了解日本正月的文化习俗

让我们Ctrl+S (2023)； Ctrl+N (2024)！

2023年度日本热词揭晓，看了榜单我竟然只认识两个？！

全银系统故障原因揭秘：NTT Data和全银联的深度分析！

日本“故乡税”完全手册来了，年末一起薅一波羊毛！

【11月IT资讯】这个月IT圈发生了什么？

不懂日语的都看懂了，懂日语的都沉默了！

用中国驾照换日本驾照5步搞定！省时又省力！

住民税大揭秘(续)：在日本社员的9种节税方法，你知道有几种？

【1024程序员节】只有程序员才能看懂的笑话

【10月IT资讯】这个月IT圈发生了什么？

【免税事业主必看】Invoice制度的2割特例!！

Invoice制度开始后，公司、个人事业主、社员都要注意什么？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉