OpenAI 12 天之 3：Sora 降临——用 AI 捕捉想象，一键生成好莱坞级大片！

文摘 2024-12-10 11:03 美国

OpenAI 正式推出其备受期待的 AI 视频生成模型 Sora，通过其专用网站向 ChatGPT Plus 和 Pro 用户开放。Sora Turbo 版本能够根据文本或图像提示生成最长 20 秒、分辨率高达 1080p 的视频。它引入了故事板、图像动画和视频混合等创新功能，为用户提供了前所未有的创作自由。尽管目前存在一些技术限制和地区限制（欧洲和英国暂不可用），Sora 的发布标志着 AI 视频生成领域的一个重要里程碑，预示着内容创作和视觉叙事方式的深刻变革。

OpenAI 的“12 天”献礼，Sora 震撼登场：一夜之间，AI 视频创作触手可及

OpenAI 的“12 天”发布活动正如火如荼地进行，每一天都带来新的惊喜，而这其中的重头戏无疑是 Sora 的正式发布。如果说 ChatGPT 开启了 AI 文本生成的新纪元，那么 Sora 则彻底颠覆了视频创作的传统模式，将 AI 视频生成技术推向了新的高度。Sora 的问世，标志着 AI 技术在内容创作领域的又一次重大突破，其影响力不亚于当初的 ChatGPT。一夜之间，原本高高在上的视频创作变得触手可及，每个人都有机会成为视频创作者，用 AI 实现自己的创意梦想。 发布消息一出，立刻引爆了社交媒体，Sora 成为科技圈和创作者们热议的焦点，各大媒体纷纷报道，行业专家也给予了高度评价，认为 Sora 将彻底改变内容创作的格局。

Sora 的发布细节：解锁 AI 视频创作新时代

1. Sora Turbo：速度与质量的双重飞跃

Sora Turbo 作为 Sora 的升级版本，带来了令人瞩目的性能提升。相比之前的预览版本，Sora Turbo 的视频生成速度更快，视频质量更高，支持更长的视频时长和更高的分辨率。这意味着用户可以更快地将自己的创意转化为视频，并且获得更加清晰、流畅的视觉效果。Sora Turbo 的推出，进一步巩固了 OpenAI 在 AI 视频生成领域的领先地位，也为用户带来了更加极致的创作体验。

2. 定价与使用：触手可及的 AI 视频创作

Sora 的定价策略也颇具吸引力。目前，Sora 已经向 ChatGPT Plus 和 Pro 用户开放，这意味着只要你是 ChatGPT 的付费用户，就可以免费使用 Sora。 对于 ChatGPT Plus 用户，每月可以生成 50 个 480p 分辨率的视频，或者更少数量的 720p 视频。而对于愿意支付每月 200 美元的 Pro 用户，则可以享受更高的分辨率（高达 1080p）、更长的视频时长（最长 20 秒）以及更多的生成次数（每月 500 次优先生成，以及无限次的非优先生成）。此外，Pro 用户还可以同时处理 5 个视频生成请求，并且生成的视频不会带有 OpenAI 的水印。这种定价策略，既降低了 AI 视频创作的门槛，让更多人能够体验到 Sora 的魅力，也满足了高端用户的专业需求。 未来，OpenAI 还计划在 2025 年初推出更灵活的定价方案，以满足不同用户的需求。

3. 地区限制：欧洲和英国用户的漫长等待

尽管 Sora 的发布令人兴奋，但目前还存在一些地区限制。Sora 已经在全球大部分地区上线，但欧洲和英国的用户暂时还无法使用。这主要是由于欧洲严格的监管环境，特别是《通用数据保护条例》（GDPR）等法规对 AI 模型的部署和使用提出了更高的要求。OpenAI 需要更多的时间来确保 Sora 在欧洲的运营符合当地的法律法规，保护用户的隐私和数据安全。OpenAI 表示正在努力解决相关问题，争取尽快在欧洲和英国推出 Sora。

Sora 的核心功能：重新定义视频创作流程

1. 文本到视频：让想象力跃然屏上

Sora 最核心的功能之一就是文本到视频生成。用户只需要输入一段文本描述，Sora 就能够根据这段描述生成一段与之对应的视频。 例如，输入“一只金毛猎犬穿着超级英雄服装，戴着面具和斗篷，站在帝国大厦的顶端，在冬天俯瞰它在夜间保护的纽约市”，Sora 就能生成一段符合描述的视频。这背后的原理是自然语言处理和计算机视觉技术的完美结合。Sora 首先通过自然语言处理技术理解用户输入的文本，然后利用计算机视觉技术将文本中的信息转化为视觉元素，并生成一段连贯的视频。与其他 AI 视频生成工具相比，Sora 生成的视频更加连贯、更符合逻辑，也更具观赏性。 当然，想要充分发挥 Sora 的潜力，还需要掌握一定的 Prompt Engineering 技巧，学会如何编写清晰、准确、富有创意的提示词。

以下是一个 Sora 生成的视频示例：

Prompt: "Loop: a golden retriever puppy wearing a superhero outfit complete with a mask and cape stands perched on the top of the empire state building in winter, overlooking the nyc it protects at night. the back of the pup is visible to the camera; his attention faced to nyc"

2. 图像到视频：赋予静态图像生命

除了文本到视频，Sora 还支持图像到视频生成。用户可以上传一张或多张图片，Sora 可以根据这些图片生成一段动态的视频。 例如，上传一张风景照片，Sora 可以生成一段带有风吹草动、云卷云舒效果的视频；上传一张人物照片，Sora 可以让照片中的人物动起来，做出各种动作。Sora 支持多种图像输入方式，包括单张图片、多张图片序列以及现有的视频帧。这一功能为用户提供了更多的创作可能性，可以将静态的照片、插画、艺术作品等转化为动态的视频，创造出更加生动、有趣的视觉效果。

3. 视频编辑：后期处理的无限可能

Sora 不仅仅是一个视频生成工具，还提供了强大的视频编辑功能，让用户可以对生成的视频进行后期处理，进一步完善自己的作品。

• Remix： Remix 功能允许用户基于新的文本提示修改现有的视频。 例如，用户可以输入“将视频中的金毛猎犬替换成机器人”，Sora 会根据这个新的提示，将视频中原有的金毛猎犬替换成机器人，同时保留视频的其他部分不变。这个功能非常适合快速制作不同版本的视频，例如制作不同风格的广告，或者调整电影场景的氛围。
• Extend： Extend 功能可以延长或缩短视频。Sora 能够根据视频的内容，智能地生成新的帧来扩展视频，或者智能地裁剪掉一些帧来缩短视频。 这个功能可以用来无缝地延长视频片段，或者快速剪辑出精彩的瞬间。
• Blend： Blend 功能可以将两个不同的视频无缝地融合在一起。Sora 能够智能地识别两个视频中的场景内容，并生成一个平滑的过渡效果，将两个场景自然地连接起来。这个功能可以用来创造超现实的视觉效果，或者将不同风格的视频融合在一起，创造出独特的艺术作品。例如在直播中展示的，可以将蘑菇人和泡沫人融合的视频。

以下是一个 Sora 生成的视频示例：

Prompt: "in a pastel bathroom with a rubber ducky, an adorable dragon made entirely of shampoo bubbles. the dragon breathes bubbles"

4. 故事板：开启视觉叙事的新篇章

Sora 最令人惊艳的功能之一就是故事板。故事板功能允许用户像导演一样掌控视频创作，通过多个提示构建一个完整的视频叙事。 用户可以在故事板中添加多个场景，每个场景都可以用文本或图像来描述，还可以通过时间轴来控制每个场景的持续时间和动作顺序。例如，用户可以先设定一个场景“一只白鹤站在小溪中”，然后在时间轴上添加另一个动作“白鹤将头伸入水中抓鱼”，Sora 会自动生成连接这两个动作的过渡画面。用户还可以上传图片作为场景的背景或者角色，Sora 会根据图片的内容生成相应的视频。通过故事板功能，用户可以创作出具有复杂叙事结构的视频短片，将自己的创意完整地呈现出来。

划重点： Sora 的故事板功能不仅仅是一个简单的视频剪辑工具，更是一种全新的视觉叙事方式。它打破了传统视频制作流程的线性模式，提供了一种非线性的、迭代式的创作体验。用户可以像搭积木一样，将不同的场景、动作和视觉元素组合在一起，并通过调整时间轴来控制故事的节奏和走向。这种交互式、非线性的视频创作方式，将极大地激发用户的创造力，为视觉叙事带来无限的可能性。

5. 循环 (Loop)：打造无限循环的视觉盛宴

循环功能可以让 Sora 生成一段无缝循环的视频。用户只需要指定视频的起始点和结束点，Sora 就能够自动生成一段循环播放的视频。 这个功能非常适合制作背景动画、GIF 动图等需要循环播放的视觉内容。例如，用户可以生成一段海浪拍打沙滩的视频，并将其设置为循环播放，创造出一种宁静、放松的氛围。

6. 浏览 (Explore)：灵感与技术的交汇

Sora 还提供了一个“浏览”功能，用户可以在这里浏览其他人用 Sora 生成的视频，从中获取灵感，学习优秀作品的提示词用法和技巧。 这是一个开放的社区，用户可以在这里交流创作经验，分享自己的作品，共同探索 AI 视频创作的无限可能。“浏览”功能的推出，不仅为用户提供了一个学习和交流的平台，也进一步推动了 AI 视频创作社区的繁荣发展。

Sora 的技术基石：揭秘背后的技术原理

1. 视觉补丁 (Visual Patches)：Sora 的独特训练方式

Sora 之所以能够生成如此高质量的视频，离不开其独特的技术架构。与传统的基于像素的视频处理方法不同，Sora 采用了视觉补丁（Visual Patches）技术。简单来说，视觉补丁技术就是将视频分解成一个个小的时空块，然后对这些时空块进行处理和分析。这种方法比传统的基于像素的方法更加高效、更加准确，能够更好地捕捉视频中的时空信息，从而生成更高质量的视频。此外，视觉补丁技术还使得 Sora 能够处理更高分辨率的视频，并且提高了视频生成的效率。Sora 在处理视频时间维度上也进行了创新，能够更好地理解和生成连续的动作，使得生成的视频更加流畅、自然。

2. 重新标记技术 (Recaptioning Technique)：提升文本-视频的匹配度

Sora 还采用了与 DALL-E 3 类似的重新标记技术（Recaptioning Technique）。这项技术能够让 Sora 生成的视频更准确地反映用户的文本描述。 具体来说，Sora 会根据训练数据中的大量文本-视频对，学习如何将文本描述转化为视觉元素。在生成视频时，Sora 会根据用户的文本输入，结合重新标记技术生成的更精确的文本描述，来指导视频的生成。这使得 Sora 生成的视频更加符合用户的意图，提高了生成结果的可控性。

3. 多宽高比和分辨率支持：满足多样化的创作需求

Sora 支持多种宽高比和分辨率的视频生成，包括横屏、竖屏、方形等，以及从 480p 到 1080p 的不同分辨率。这使得 Sora 能够满足不同场景下的创作需求，无论是制作社交媒体上的短视频，还是制作高清的电影预告片，Sora 都能胜任。用户可以根据自己的需求，选择合适的宽高比和分辨率，平衡视频质量和生成速度。

安全与责任：Sora 的边界与守护

OpenAI 在开发 Sora 的过程中，充分考虑了安全性和伦理性问题。为了降低风险和防止滥用，采取了一系列措施：

1. C2PA 元数据： Sora 生成的所有视频都嵌入了 C2PA 元数据，用于记录内容的创建和修改历史，确保内容的可追溯性和真实性，防止虚假信息和版权侵权。
2. 水印机制： Sora 生成的视频默认会添加可见的水印，以便用户清晰地识别出这是 AI 生成的内容。 水印策略根据用户订阅等级有所不同，兼顾用户体验和内容监管需求。
3. 内部验证工具： OpenAI 开发了一套内部的 Sora 内容验证工具，利用 AI 技术本身来检测和防止 Sora 被滥用，例如识别深度伪造视频。
4. 人物视频生成限制： 为了降低深度伪造技术的风险，Sora 目前限制生成包含真实人物的视频，保护个人肖像权。
5. 内容审核： Sora 禁止生成涉及未成年人、暴力、色情或版权侵权的内容，并制定了详细的用户协议和内容审核机制，引导用户负责任地使用，对违规行为进行处罚。

Sora 的意义与展望：AI 视频生成的未来图景

1. 赋能创作者：开启内容创作新纪元

Sora 的发布，极大地降低了视频创作的门槛，让每个人都有机会成为视频创作者。 无论是专业的影视从业者，还是普通的个人用户，都可以利用 Sora 将自己的创意转化为视频。Sora 为创作者提供了强大的新工具，激发了他们的创造力，拓展了表达的边界。Sora 的出现，将对广告、影视、教育等行业产生深远的影响，重塑内容生产的流程，提升创作的效率。

2. 推动 AI 发展：迈向 AGI 的关键一步

Sora 在 AI 理解和生成视频方面取得了重大突破，让 AI 能够更好地理解和生成动态的世界。 视频是现实世界的一种重要表现形式，包含了丰富的时空信息和复杂的逻辑关系。Sora 对视频的理解和生成能力，是通往通用人工智能（AGI）的重要一步。视频可以作为 AI 学习的环境，通过观察和生成视频，AI 可以学习到更多关于世界的知识，构建更智能、更接近人类的 AI 系统。

3. “AI 原生”艺术：一种新的艺术形式正在诞生

Sora 等 AI 视频生成工具的普及，将催生一种全新的艺术形式——“AI 原生”艺术。这种艺术形式不再局限于模仿已有的艺术风格，而是利用 AI 的独特能力，探索全新的视觉表达方式。例如，利用 Sora 的 Blend 功能，可以将两个完全不同的场景融合在一起，创造出超现实的、梦幻般的视觉效果；利用 Loop 功能，可以创造出无限循环的、具有催眠效果的视频；利用故事板功能，可以创作出具有复杂叙事结构的、非线性的视觉故事。这些都是传统视频制作工具难以实现的。“AI 原生”艺术将具有独特性、互动性和无限可能性，它将挑战和补充传统的艺术观念，拓展艺术的边界，丰富艺术的内涵。

4. 持续迭代：Sora 的未来之路

OpenAI 表示将持续改进 Sora，不断提升其性能，丰富其功能，优化用户体验。 用户的反馈和社区的参与对于 Sora 的发展至关重要，OpenAI 将积极听取用户的意见和建议，与用户共同成长，打造更强大的 Sora。未来，我们可以期待 Sora 支持更高分辨率、更长时长的视频生成，提供更智能的编辑功能，以及更多样化的创作工具。

5. Sora 对教育领域的潜在影响：个性化教学，趣味化学习

Sora 在教育领域也具有巨大的应用潜力。教师可以利用 Sora 创建个性化的教学视频，根据每个学生的学习进度和特点，定制专属的学习内容，实现因材施教，提升学习效果。 Sora 还可以将抽象的科学概念可视化，例如将复杂的物理原理、化学反应等制作成生动有趣的视频，降低学生的学习难度，激发他们的学习兴趣。此外，Sora 还可以作为学生的创作工具，让学生参与到视频创作中来，培养他们的创造力和想象力。

竞争与挑战：Sora 并非一枝独秀

Sora 的发布加剧了 AI 视频生成领域的竞争。目前市场上已经涌现出多家 AI 视频生成平台，如 Runway、Stability AI、Pika 和 Luma Labs' Dream Machine 等。这些平台各具特色，在技术路线、功能定位、用户体验等方面都有自己的优势。

以下是一些 Sora 生成的视频截图：

Sora 的竞争优势在于其强大的技术实力、完善的生态系统以及 OpenAI 的品牌背书。Sora 的视频生成质量、功能丰富程度以及用户体验都处于行业领先水平。此外，Sora 与 ChatGPT 的结合，为用户提供了一个从文本生成到视频创作的完整解决方案。

技术挑战方面，Sora 当前版本在物理模拟和复杂动作生成方面还不够完美，生成的视频有时会出现一些不符合物理规律的现象。 此外，如何提高视频的连贯性和逻辑性，仍然是一个需要持续攻克的难题。

伦理挑战方面，AI 视频生成技术的发展也带来了一系列的伦理挑战，例如深度伪造、版权侵权等。 如何在技术发展和伦理规范之间取得平衡，是整个行业都需要思考的问题。

商业化挑战方面，Sora 需要制定合理的定价策略，平衡成本与收益，吸引更多用户。 此外，如何吸引和留住用户，构建活跃的用户社区，也是 Sora 能否取得商业成功的关键。

Sora，开启 AI 视频创作的无限可能：引领 AI 时代，共创美好未来

Sora 的发布是 AI 视频生成领域的一个重要里程碑，也是内容创作领域的一次革命性突破。它降低了视频创作的门槛，激发了人们的创意，为内容创作带来了无限的可能性。 Sora 的出现，将推动 AI 视频生成技术的持续进步，拓展其应用场景，促进 AI 与人类的共同创作。Sora 对 AI 行业和内容创作领域都将产生深远的影响，它不仅改变了我们创作和消费内容的方式，也将推动 AI 技术的进一步发展和负责任的应用。让我们积极拥抱 Sora，用它来创造更美好的世界，共同迎接 AI 时代的到来！