6月6日快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测。
可灵大模型 (kuaishou.com)
随着OpenAI的文生视频大模型Sora的发布,国内科技行业也迎来了文生视频大模型的快速发展期。近期又有一家国产视频大模型正式亮相,这就是快手推出的“可灵”视频生成大模型,其官网已正式上线。
与先前各大公司发布的视频大模型主要以展示视频为主不同,快手的“可灵”大模型不仅效果可与Sora相媲美,更重要的是,它已经在快手旗下的快影App中开放邀测体验,为用户提供更加直观和实际的感受。这一进展标志着国产文生视频大模型已经迈入加速阶段,行业内的竞争也日趋激烈。
作为短视频领域的领军企业,快手在短视频技术方面积累了丰富的经验,为其视频生成大模型提供了广阔而天然的应用场景。近期推出的“可灵”视频生成大模型,由快手AI团队自主研发,它采用了类似Sora的技术路线,并结合了多项自研创新技术,展现出显著的优势。
在技术上,“可灵”大模型生成的视频分辨率高达1080p,时长可达2分钟(帧率30fps),同时支持自由的宽高比选择,满足了用户对高质量、多样化视频内容的需求。这些优势使得“可灵”大模型在短视频生成领域具有广泛的应用前景和竞争力。
可灵大模型在生成视频内容时,特别擅长于创造大幅度的合理运动。这一能力得益于其独特的3D时空联合注意力机制,该机制能够精准地捕捉和建模视频中的复杂时空运动。因此,可灵大模型不仅能生成幅度较大的运动,更重要的是,这些运动都遵循着客观的运动规律,让用户的想象力得以在视频中生动展现。
以下是一个具体的例子:在模拟宇航员在月球上奔跑的场景中,可灵大模型展现出了其卓越的运动生成能力。随着镜头缓缓抬升,我们可以看到宇航员跑步的动作流畅而轻盈,每一步的步态以及影子的跟随都显得自然而合理。这一例子充分证明了可灵大模型在生成大幅度合理运动方面的出色表现,真正实现了让想象力在视频中“动”起来。
prompt:一名宇航员在月球表面奔跑,低角度镜头展现了月球的广阔背景,动作流畅且显得轻盈
以下是可灵大模型生成的一段精彩视频:一个小男孩正享受着美味的汉堡。当他一口咬下,汉堡上出现了一个显著的缺口,这个缺口在整个视频中清晰可见。更令人印象深刻的是,小男孩咀嚼汉堡时的享受表情被捕捉得栩栩如生,脸部的肌肉动态非常逼真,仿佛能让人感受到他品尝美食的愉悦心情。这段视频生动地展示了可灵大模型在生成自然、逼真动作和表情方面的卓越能力。
prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡
可灵大模型拥有出色的概念组合能力和想象力。通过对文本-视频语义的深入理解,以及基于Diffusion Transformer架构的强大学习能力,它能够轻松地将用户的想象转化为生动的视频画面。下面这个视频就是一个例子,它展示了熊猫吉他手坐在湖边弹唱的美好场景,让人感受到创意的无限可能。
一只大熊猫在湖边弹吉他
快影App的AI创作功能中已正式开放文生视频功能的邀测,支持创作者申请并体验可灵大模型最新的文生视频功能。图生视频功能也将在近期开放。
基于可灵大模型,更多应用方向也已经或即将落地。
随着AI大模型时代来临,作为头部短视频公司,快手已展开全面布局。公开资料显示,快手已先后发布通用大语言模型“快意”、文生图大模型产品“可图”,还推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等视频关键技术,引发了广泛关注。据悉,伴随此次可灵大模型的发布,快手将持续加速大模型的研发与应用,带来更加多元的AI创作与互动体验。
版权声明:【除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系。
END