首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Sora终于来了，但卷王可灵已经「拍」上了AI电影

财富 2024-12-12 17:45 浙江

图片来源：由无界AI生成

这次，轮到名导们下场整活了。

短片一开场就相当震撼：钟馗手持一把斩鬼剑，穿行在一片乌漆麻黑、虬枝盘曲的密林中。

伴随着一阵节奏急促的锣鼓声，野兔精、蛤蟆精、长满骷髅的树妖接连现身，紧张恐怖的气氛拉满。

但一声长喝下，镜头一转，手机屏幕弹出「勿扰模式」四个大字，底下滚动着被拦截的各种信息：

自动记账 APP、多人视频会议、4 个未知号码来电、183 条微信群消息、风险网站的跳转链接，以及大 boss 正在打来的电话……

最后画面缓缓打出「休假期间，百鬼勿扰」的字幕。本以为是个中式志怪片，没想到原来是个职场吐槽片。

更让人惊喜的是，这部由俞白眉导演打造的 5 分钟短片，竟完全出自可灵 AI 之手。

早在三个月前，快手可灵 AI 就联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位知名导演共同发起了「可灵 AI 导演共创计划」，制作出品 9 部 AIGC 电影短片。

12 月 6 日，导演们来交作业了。

自嘲用普通话不会写剧本的贾樟柯，在自己首部 AIGC 电影短片《麦收》中，借助可灵 AI 的「对口型」功能，让机器人说上了山西汾阳话。

《卧虎藏龙》艺术指导叶锦添则采用可灵 AI 的「首尾帧」功能，描绘了一个外星快递员在太空中的冒险旅程。通过 AI 技术，每一帧画面都逼真到让人仿佛置身于一个真实的太空世界。

导演王子川在其作品《雏菊》中，从计算机、机器人等现代科技产物与人的关系展开，大量使用可灵 AI 的「图生视频」功能，通过重复蒙太奇、高速剪辑以及特效镜头，为观众带来强烈的视听冲击。

在助力影视创作方面，可灵 AI 最有发言权。快手科技副总裁、大模型团队负责人张迪表示，「2024 年视觉生成领域 AI 大模型发展迅速，可灵 AI 自 6 月发布以来，已让众多用户感受到其在视频创作上的能力。」

此次这 9 部具有实验性质的电影短片，全部使用可灵 AI 进行视频生成。电影导演完全依托视频生成大模型，深度参与电影级内容创作，这在中国尚属首次。

作为中国首个 AIGC 导演共创计划的成果，这 9 部 AIGC 电影短片已在快手平台上线，并被中国电影博物馆永久收藏、放映展示。这既是对中国电影历史的一次致敬，也是对未来电影创作的一次大胆探索。

6 个月迭代十余次，可灵 AI 是怎么炼成的？

今年年初 Sora 一把火，彻底点燃了 AI 视频生成这个赛道。

6 月 6 日，快手率先推出自研的视频生成大模型「可灵AI」，成为全球首个用户可用的真实影像级视频生成大模型。

此后，可灵 AI 又接连上线了图生视频、视频续写、运动笔刷等功能，不仅在画面质量、指令遵从和运动幅度等方面有显著提升，还将生成视频时长延伸约 3 分钟，创作者单次生成的文生视频时长也增加至 10 秒。

尽管取得不错的战绩，但可灵 AI 并没有躺在功劳簿上吃老本，而是继续马不停蹄地推陈出新。

9 月 19 日，可灵 1.5 模型重磅登场，直接让画质质量、动态质量、美学表现、运动合理性以及语义理解提升了一个 level。

全球网友也开启疯狂整活模式，社交平台上涌现出一堆脑洞大开的视频，比如蒙娜丽莎戴墨镜、熊猫弹吉他、猪八戒吃面条等。

在商业化方面，可灵 AI 同样走在行业前列。

可灵 AI 先后上线 Web 端、独立 App，打造多端跨平台产品矩阵，并全面开放内测，陆续向国内外的用户推出会员付费体系。此外，可灵 AI 还面向 B 端开放了 API 服务，涵盖视频生成、图像生成和虚拟试穿等多个模块。

为了给创作者提供商业变现新渠道，可灵 AI 于 10 月 18 日启动「未来合伙人计划」，率先推出一站式 AIGC 生态合作平台。

这半年来，可灵 AI 一路「狂飙」，十余次迭代升级，也让它有了稳站行业第一梯队的底气。截至 12 月 10 日，可灵 AI 已拥有超 600 万用户，累计生成超 6500 万个视频和超 1.75 亿张图片。

重塑影视行业，可灵 AI 又卷起来

近期，可灵 AI 趁热打铁，陆续推出 AI 人脸定制模型和 AI 试衣功能，为影视创作者提供了更强大的工具支持。

AI 定制模型

攻克「人物一致性」难题

在视频生成过程中，目前的视频大模型仍具有较强的随机性。它们在处理相同的文字描述时，往往会产生不同的视频主体，这种随机性难以维持故事的连贯性和人物形象的一致性。

对此，可灵 AI 推出了人脸定制模型。创作者只需上传 10 段 5 秒的多角度高清视频，就能自助训练一个人脸模型。如果想要效果更佳，最多可上传 99 段视频。

完成训练后，就可以在可灵 1.5 模型的文生视频中，生成人脸一致的视频结果，满足创作者生成多个包含同一人物镜头的诉求，而且单个镜头中的人脸，也会更稳定更清晰。

我们上手体验了一把，训练出 Sam Altman 的人脸模型，然后将其放置在各种场景中。

比如，Sam Altman 在餐厅吃意大利面：

Sam Altman 在餐厅吃水饺：

以及 Sam Altman 在车水马龙的大街上骑摩托：

还有科幻风格的，让 Altman 化身钢铁侠行走在赛博朋克风格的大街上：

由此可见，可灵 AI 的人脸定制模型在解决人物 IP 稳定性这一行业难题上迈出了新的一步，这也标志着 AI 视频生成领域实现了又一个重要技术突破。

AI 试衣

影视造型新探索

电影《穿普拉达的女王》中，有一幕经典的蒙太奇变装。安妮・海瑟薇在不到一分钟内，换了六身绝美穿搭，每套都堪称惊艳。

视频来源：电影《穿普拉达的女王》

那么 AI 能否实现影视制作中的服装搭配、造型设计呢？

可灵 AI 新近上线的「AI 试衣」功能就能搞定。它在可图文生图模型基础上，引入衣服 SKU 保持网络、人物 Pose 姿势、背景修复等技术，实现任意衣服、任意身材、任意动作的试穿效果生成。

用法也很简单。只需上传一张模特照和一套服装图，即可一秒变装，这无疑大大提高了影视制作中服装搭配和效果展示的效率。

比如，让安妮・海瑟薇换上一件旗袍，换装后的衣服不仅自然贴合身材曲线，还能根据风格搭配手包。

再比如，原本身着露肩衬衫外加牛仔短裤的霉霉，经过可灵 AI 一番改造，立马从休闲风变成淑女风，换装后的衣褶、打的结都生成得很自然。

给凤姐换上一件黑色皮夹克，在保持复杂头饰不变的情况下，它完美保留了毛领子、拉链等细节。

最绝的还是大魔王凯特・布兰切特的变装。前一秒还是酷飒的黑色紧身 T 恤，下一秒就换上一身白色玫瑰连衣裙。

它细致展示了裙子丝绸材质，就连玫瑰花的颜色、位置也都一一还原。

世界名画或雕像也能瞬间换装。让身着黑色长袍的蒙娜丽莎「套」上东北大花袄：

给兵马俑穿上圆领 polo 衫和灰色长裤：

此外，它还可以通过 AI 扩图和可灵 AI 的图生视频大模型，实现全流程素材生成。

比如皇后换上的灰色连帽卫衣，经过 AI 扩图变成一件宽松长袍。

再用镜头控制功能将其转成穿搭视频。

或者输入 Prompt「模特左右转身向观众展示身上的服装」，让换上皮草的黄仁勋动起来。

从文生视频、图生视频，到首尾帧功能，再到人脸模型、AI 换装…… 这些创新技术的连续推出，无一不彰显了快手对于未来影视行业发展趋势的深刻洞察。

开放共享，引领 AIGC 革新

作为 AI 视频生成赛道的佼佼者，快手可灵大模型团队在不断拓展技术边界的同时，还公开了一系列技术进展，积极和行业分享技术研发成果。

在 AI 视频生成领域，视频生成基础模型和数据是构建高质量视频内容生成系统的基石。为了啃下这块硬骨头，可灵团队进行了系统性研究，并率先提出一种给视频生成模型（Video DiT）量身定制的 Scaling Law 建模方法。

这种方法能够在较低的计算成本下，提前预测大规模模型的性能表现，帮助研究者优化技术选择，调整模型参数，从而大幅降低实验试错成本。

Video DiT 架构下的精准 Scaling Law 建模

论文题目：《Towards Precise Scaling Laws for Video Diffusion Transformers》

论文地址：https://arxiv.org/pdf/2411.17470

另外，可灵大模型团队还公开了其视频训练数据的部分核心预处理流程，并基于此流程推出了高质量视频生成数据集 Koala-36M。

该数据集是目前全球领先的大规模高质量视频 - 文本数据集之一，包含 3600 万个视频片段，平均时长为 13.75 秒，分辨率达到 720p，每个视频片段配有平均 202 字的详细描述。

数据处理流程

论文题目：《Koala-36M: A Large-scale Video Dataset Improving Consistency Between Fine-Grained Conditions And Video Content》

论文地址：https://arxiv.org/abs/2410.08260

代码地址：https://github.com/KwaiVGI/Koala-36M

项目主页：https://koala36m.github.io/

数据集链接：https://huggingface.co/datasets/Koala-36M/Koala-36M-v1

在与其他数据集的比较中，基于 Koala-36M 数据集训练的模型展现出了卓越的性能，无论是在视频质量还是文本与视频内容的一致性方面均达到了最优。

在视频生成的可控性和交互性方面，可灵团队也取得一系列的进展。

比如，发布了 3D 轨迹控制的视频生成项目 3DTrajMaster：

3DTrajMaster 能够精准控制视频中不同主体在 3D 空间中的运动

项目主页：http://fuxiao0719.github.io/projects/3dtrajmaster

多机位视频生成项目 SynCamMaster：

SynCamMaster 支持多种相机视角变化，例如改变相机方位角、俯仰角、距离远近等

项目主页：https://jianhongbai.github.io/SynCamMaster/

以及精准视频风格化项目 StyleMaster：

StyleMaster 支持图像风格迁移、视频风格迁移、风格化视频生成等多种功能

项目主页：https://zixuan-ye.github.io/stylemaster

这些项目不仅能够控制视频中主体的三维运动，还能根据用户的文本描述生成多视角视频，并支持任意艺术风格的视频风格转换。

此外，团队还开发了具有泛化能力的游戏视频生成器 GameFactory，能够使用户自定义角色动作，享受个性化的虚拟世界体验。

通过持续开放核心数据和技术组件，以及分享论文技术方案，可灵团队不仅为影视创作领域注入了新的动力，也为未来的创意表达和内容创作开辟了更多可能。

开启影视创作新时代

回顾百年影史，技术的革新始终是电影产业发展的关键驱动力。

从无声到有声，从黑白到彩色，从胶片到数字…… 每一次技术的飞跃，都促进电影艺术向更高的阶段迈进。

如今，随着 AI 技术的不断迭代和突破，以可灵 AI 为代表的视觉大模型及产品逐渐成为视觉行业的新基建和新工具，它们正以其独特的优势，重塑着影视行业的未来。

在传统电影拍摄中，导演天马行空的想法往往会受到物理条件和现实世界的约束，而 AI 则打破了这些界限，创造出任何导演想象中的场景，而这种创作自由度为电影叙事提供了无限可能。

王子川导演在与可灵 AI 的合作中就深刻体会到文生视频和图生视频技术对电影叙事方式的深远影响。「可灵 AI 可以把创作者的想象快速变成一个可视化的内容呈现出来，尽可能地模拟出你想要的每一个动态和整体的叙事节奏，包括所有的冲突、画面内部的调度等」。

在他看来，技术不仅仅是工具，也是叙事艺术的新维度，为电影叙事提供了一种全新的语言。

另一方面，AI 极大地优化了电影产业成本效率。

曾经，拍电影是一件奢侈的事情。就以影史上烧钱巨作《阿凡达：水之道》为例，其制作成本超过 4.5 亿美元。按 193 分钟的片长来算，每分钟制作费就高达 233 万美元。如此一掷千金，即使是财大气粗的好莱坞也一度吃不消。

相比之下，AI 生成电影能够在虚拟环境中完成大部分工作，大幅降低了成本。同时，AI 的高效率使得电影制作周期大大缩短，这对于追求快速回报的电影产业来说，无疑是一个巨大的优势。

当然，目前的 AI 视频生成技术仍处于发展阶段，在模拟人类情感的微妙变化、创造深度叙事结构以及捕捉现实世界中不可预测的偶然性方面仍存在不足。

不过正如俞白眉导演所说，尽管今天的 AI 作品并不是伟大的作品，但对于走过来的人来说弥足珍贵。相信几年之后，AI 将制作出非常有水准的电影大作。

中国AIGC产业应用峰会回顾

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。

大会汇集行业资深专家及领军企业，共同聚焦AIGC领域，围绕当下热点话题进行深度延展，探讨行业激烈竞争下的运营新思路、发展新模式！点击文章，回顾精彩内容~

AI新智界园区开放合作啦！

专注于 AIGC、数字版权、元宇宙以及区块链等新技术领域的报道。

最新文章

OpenAI直播12天，马斯克融资437亿

日入千元！一个人也能开起AI照相馆了

大模型落地，苦「最强」久矣

媒体再爆：OpenAI的GPT-5训练遇阻，时间延迟且成本高昂

OpenAI成功为自己制造了危机

AI+Emoji，终于打了一场胜仗？

史上最大规模融资！AI巨无霸Databricks诞生，投资细节公开

沾AI价格暴涨十倍，玩具圈想再造一个泡泡玛特

字节丢的面子，正靠AI挽回

OpenAI整大活！ChatGPT新增电话功能，全民AGI要来了

贴身追随OpenAI的中国公司，从智谱换成了月之暗面？

海螺们不想交“买路财”

Sora能带飞剪映吗？

刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

奥特曼，杨植麟的理想型？

柜哥柜姐，AI的新工作

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

我用AI 卖大米，一个人就是一个团队

Sora终于来了，但卷王可灵已经「拍」上了AI电影

体操运动，是所有AI视频最残酷的图灵测试

最新国内AI手机排行榜，让人有点破防

Sora发布！这次的惊艳居然不在模型，而是产品设计和制作流

AI公司到底谁在喝汤，谁在吃肉？

第一批 AI 员工，即将入职电商公司

惊喜！OpenAI第3天产品会很炸裂，Sam Altman非常兴奋

大模型创业“生死局”：融资困难、造血乏力、卖身离场

奥特曼悔不当初：OpenAI因无知选择“非营利”

让一让，全球最鲜活的AI小猫来了

AI营销的风，还是吹到了A股

亚马逊祭出地表最强全家桶，多模态Nova却败给Claude 3.5！

马斯克起诉OpenAI：要求开源产品，36页诉状大公开！

AI时代，图库会被媒体抛弃吗？

3个月估值10亿，李飞飞空间智能首个模型诞生！

ChatGPT拒绝谈论这个人，没人知道为什么

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！

如今的华强北，被AI包围

谷歌发布双思维AI Agent：像人类一样思考，重大技术突破！

一家老牌明星AI公司，倒在大模型时代

这个群体，用AI 捏爆款，1人年入百万

这届AI顶流都在小红书？

一文看尽Meta开源大礼包！

人本智能时代：谁在为AI“立规矩”？

Nature：谷歌学术正在被AI工具颠覆

我，机器人艺术家，一幅画卖 700 万

喊着干掉网站和app的AI公司们，却在豪掷数亿疯抢网址域名

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

“一人AI公司”已实现年入百万

开始分家：零一万物计划独立 AI 游戏公司

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉