ZPedia丨可灵AI：从隔空拥抱到赛博试衣间，国产AI的花活已经甩开Sora一条街

文摘 2024-12-19 13:17 北京

Z Highlights

在AI 浪潮全面爆发的时代下，快手凭借其知名的短视频软件，基于自身特性打造出一款具有领先视频及图像生成编辑能力的产品——可灵AI，自发布后在用户规模、活跃度与留存率等方面拥有出色数据。

可灵ai自上市后不断更新迭代，相继推出运动笔刷、对口型等多项首创功能，在近期又推出AI试衣间，实现了众多少女拥有赛博试衣间的梦想。

可灵AI的成功离不开其背后组建的强大的快手AI大模型团队，快手集团集合大量相关领域人才致力研发，获得了广泛成功。

01 应运而兴，启时以行

可灵AI由快手的 AI 团队自主研发，2024 年 6 月 6 日，可灵视频生成大模型官网正式上线，同年11 月，独立 App正式推出。可灵AI的出现，既是时代的产物，更推动了时代的发展。

2022年11月，ChatGPT 流行起来，在短短几天内就吸引了数百万人的关注，2023年后AI的浪潮全面爆发，主要的科技巨头企业纷纷加入了争夺人工智能领域领先地位的竞赛，其应用场景也迅速拓展到众多领域，快手作为国内知名的以短视频为主的互联网科技公司，自然也不甘落后。

由于市面上的大模型AI已经不计其数，简单的重复和复制只会产生同质化产品，要想吸引大众就只能思考如何创新，快手结合自身以短视频平台闻名的特性，推出了全球首款可供公众测试的文生视频大模型产品——可灵AI。可灵AI具有领先的视频及图像生成与编辑能力，如文生视频、图生视频及续写等功能，且自24年6月诞生以来不断升级迭代，展现出了强大的技术研发和产品优化能力。

可灵AI自发布后受到了广泛关注，在7月6日，还未开放全面内测时，其申请人数就超过了50万，视频生成数量达700万，到8月27日，用户数超过160万，累计生成超1600万条视频，11月，数据有了更大的突破，服务用户已超500万，累计生成5100万个视频，超1.5亿张图片，这一系列令人惊叹的数据表明，可灵AI在用户规模、用户的活跃度和留存率都做出了出色的成绩，各方面的努力得到了公众的认可，推动了AI时代的进步。

02 可灵AI因何而火

1、图片生成与编辑

文生图：用户输入文字描述及相关参数，可灵 AI 可生成多种尺寸、多种风格的创意图片。

图生图：根据用户上传的参考图片，生成与之相关的新图片，满足用户多样化的图片创作需求。

图片来源：可灵ai

值得一提的是，目前可灵ai已经支持文字生成功能了，在提示词中输入想要生成的文字，就可以得到既准确又贴合图片的文字生成结果，可图大模型是第一个原生支持中文文字生成的文生图模型。

图片来源：可灵ai

2、视频生成与编辑

（1）文生视频：用户输入一段文字，可灵大模型根据文本生成 5s 或10s 视频，将文字转变为视频画面，现已支持“标准”与“高品质"两个生成模式，标准模式生成速度更快，高品质模式画面质量更佳，同时支持 16:9，9:16与 1:1 三种画幅比例，更多元满足视频创作需求。

图片来源：可灵ai

提示词 = 主体(主体描述)+运动+场景(场景描述)+(镜头语言+光影+氛围)

视频来源：可灵ai，提示词：镜头中景拍摄，背景虚化，氛围光照，一只大熊猫戴着黑框眼镜在咖啡厅看书，书本放在桌子上，桌上还有一杯咖啡冒着热气，旁边是咖啡厅的窗户，电影级调色。

（2）图生视频：输入一张图片，可灵大模型根据图片理解生成 5s 或10s视频，将图片转变为视频画面，输入一张图片加文本描述，可灵大模型根据文本表达将图片生成一段视频。

在可灵 AI 的众多功能里，图生视频功能的使用频率居于首位。从视频创作维度而言，图生视频具备更强的可控性，创作者能够借助预先生成的图片来开展动态视频创作，这一方式极大地削减了专业视频创作所需的成本，同时也降低了创作门槛。而站在视频创意的视角，用户可以运用文本指令操控图片中的主体对象进行运动，像近期网络上热度爆棚的 “老照片复活”，让往昔的记忆鲜活起来；“与小时候的自己拥抱”，跨越时空实现情感交融；还有被网友打趣为吃菌子幻觉视频的 “蘑菇变企鹅” 等创意呈现，无不彰显出可灵 AI 作为创意工具的独特魅力，为用户的创意构想转化为现实开辟了广阔无垠的空间，让各种奇思妙想都有机会落地生根、大放异彩。

视频来源：可灵ai，提示词：蒙娜丽莎用手戴上墨镜，背后出现一道光

（3）视频延长：对ai生成后的视频进行延长处理，单次可续写4-5秒，支持多次续写，最长可延长至3分钟。用户可以选择图生视频功能创作一段视频后，用延长功能对视频进行续写，以增加视频的丰富性和完整性。

视频来源：可灵ai，提示词：盘子里的蘑菇变成一群企鹅爬出来，在雪地里行走

（4）运镜控制：运镜控制现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”，6个基本运镜，以及“左旋推进、右旋推进、推进上移、下移拉远”4个大师运镜，用户也可以通过调节位移参数进行运镜幅度的选择。

视频来源：可灵ai，参数：大师运镜——左旋推进

（5）首尾帧能力：用户上传两张图片，模型将这两种图片作为首帧和尾帧生成视频，可以更好地把握视频的开头和结尾画面，实现对视频更加精细化的控制。

视频来源：可灵ai

（6）运动笔刷能力：运动笔刷允许用户为图片中的元素指定精确的运动轨迹，用户只需将图片中需要控制运动方向的部分勾勒出来，然后画一个示意运动方向的箭头，即可实现对元素运动的精准控制，在可灵 1.5 模型的图生视频专业模式下，用户最多可为图中的 6 个元素分别指定运动轨迹，这意味着可以在同一视频中实现多个元素的复杂运动，比如让画面中的人物、动物、物体等按照各自不同的轨迹运动，相互配合，形成一个富有动态感和故事性的视频。

除了控制元素的运动轨迹外，运动笔刷还支持为某些元素额外指定静止区域，这一功能有助于在视频中突出重点元素或保持画面的整体稳定性，让视频内容有更好的运动控制及运动表现，使整个视频的画面更加协调、自然，避免因过多元素的运动而导致画面过于杂乱

提示词：一只猫跳过了前面的碗

视频来源：可灵ai

3、新功能！AI试衣间

AI试衣间功能新上线，网购也能实现“在线试衣”。

视频来源：哔哩哔哩可灵ai

支持多种服饰更换：该功能支持单独更换上衣、下衣、连衣裙或套装，甚至能同时更换上衣和下衣。

细节处理精准：AI 能够准确识别人物轮廓、衣物特征，还能合理处理光影和褶皱效果等细节，使生成的试衣效果图更加真实自然，仿佛模特真的穿上了该服装，即使手中持有物品，也不会影响衣服生成的效果。

图片来源：可灵ai

模特选择多样：提供了包括男生、女生、孩子在内的 24 个不同的模特供用户选择，用户可以根据自己的需求选择合适的模特来试穿衣服，更好地预览不同身材、不同风格的试穿效果。

可使用个人照片：除了选择系统提供的模特，用户还可以上传自己的照片作为模特，实现个性化的试衣体验，让用户能够更直观地看到衣服穿在自己身上的效果，有效解决了网购时因无法试穿而导致的衣服不合身等问题。

图片来源：可灵ai

03 快手精英团队打造可灵大模型

盖坤（于越）：快手高级副总裁、快手主站业务和社区科学负责人，清华博士，第一批 “阿里星”，2020 年加入快手，担任多项重要职务，在可灵大模型的新版本新功能发布等方面发挥了关键作用。

图片来源：百度图片

张迪：快手副总裁、快手大模型团队负责人。自去年初担任此职务，负责大模型研发团队，聚焦大模型、视觉生成模型和多模态模型等方向，带领团队推动可灵 AI 的发展，并且积极参与相关学术研究，其参与的《parrot:enhancing multi-turn instruction following for large language models》入选顶会 ACL2024。

图片来源：搜狐

万鹏飞：快手视觉生成与互动中心负责人，可灵视频生成模型负责人，毕业于中国科学技术大学和香港科技大学。此前长期担任快手 Y-tech AI 技术中心负责人，牵头快手数字人系列解决方案，在图像 / 视频 / 3D AIGC、XR 与数字人、Mobile/Efficient AI 等技术方向经验丰富。

图片来源：Google scholar

王鑫涛：快手视觉生成与互动中心高级研究员，毕业于浙江大学和香港中文大学 mmlab，师从汤晓鸥，2020 年加入快手，负责领导视觉内容生成，特别是视频生成方面的工作。

图片来源：Google scholar

Xin Tao：快手科技视觉生成组（可灵团队）高级研究员和技术负责人，毕业于上海交通大学和香港中文大学，师从贾佳亚。研究兴趣包括视觉修复和生成，加入快手后专注于高效视频生成和编辑系统的研究和部署。

图片来源：Google scholar

Haotian Yang：毕业于南京大学，曾在 IEEE、AAAI 等顶会上发布论文，2023 年前后加入快手可灵团队。

图片来源：Google scholar

yuangao：快手可灵团队成员之一，目前除合著论文外，公开资料中关于他的更多信息较少。

作者：Meng Ying

审核：Zheng Yi

来源：

[1] https://klingai.kuaishou.com/

[2] https://news.qq.com/rain/a/20241027A067HO00

[3] https://finance.sina.com.cn/roll/2024-11-21/doc-incwusvu1525301.shtml

欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱：zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群，优秀者将成为签约作者，00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的Z Explorer

Z Finance

我们相信认知能够跨越阶层，致力于为年轻人提供高质量的科技和财经内容。

最新文章

速递｜美对字节态度风向转变，参议员正敦促拜登政府延长TikTok出售期限90天

速递｜CEO亲自上庭后高通胜诉ARM，但芯片设计许可纠纷尚未平息，ARM或将上诉

速递｜谷歌或取消在安卓新设备上预装浏览器，认为法院强拆Chrome将抑制创新

Z Waves｜朱啸虎：传奇独角兽捕手，投中滴滴饿了么，套现ofo，错过字节，炮轰kimi

深度｜微软投资数百亿成英伟达芯片全球最大买家，字节与腾讯位列第二第三

速递｜美国对华反垄断监管升级，腾讯放弃Epic Games董事会席位

ZPedia丨可灵AI：从隔空拥抱到赛博试衣间，国产AI的花活已经甩开Sora一条街

速递｜重磅！美国最高法院同意听取TikTok上诉辩论，或将审查TikTok禁令是否违宪

速递｜张一鸣在香港成立资产管理公司，或将专注风险投资

深度｜亚马逊云科技re:Invent 2024，全新Nova系列大模型与AI芯片赋能企业AI落地，让选择成为核心竞争力

速递｜MiniMax旗下Talkie疑美服下架，年收入7000万美元，已是AI独角兽旗下最成功的出海产品

速递｜小红书高管再次调整，今日资本原合伙人担任战略负责人，将组建战略投资团队

速递｜通义从阿里云分拆，ToC团队并入夸克，ToB团队迁移至智能信息事业群

速递｜智谱完成新一轮30亿元融资，新战投和国资加入，商业化实现翻倍，MaaS平台日均Tokens消耗量增长150倍

速递｜TikTok请求美国最高法院阻止政府禁令，特朗普表示对TikTok有感情

速递｜Google DeepMind发布新视频模型，可以生成2分钟以上视频，分辨率最高可达4k

速递｜月之暗面最终豁免日，但朱啸虎并不打算原谅张予彤，1亿美元免费原始股需要补偿老股东

速递｜TikTok Shop一年时间超越Shein和Sephora，已成为美国消费者线上购物首选

速递｜监管部门批准64项AI服务，行业竞争加剧，市场或趋于饱和

深度｜高瓴转向，新基金计划募资80亿美元布局日本等亚洲市场，募资也将聚焦亚洲和中东国家

速递丨美国法院驳回字节暂缓TikTok禁令的请求，国会要求谷歌和苹果准备从应用商店移除TikTok

速递丨谷歌发布Android XR操作系统，在XR设备竞争上谷歌通过Gemini构建XR生态系统

速递丨小红书2024年利润预计突破10亿美元，相比2023年翻倍

速递丨前暴雪CEO仍然有意收购TikTok，将在川普上台后推进

速递丨微软推出基于合成数据集的新一代Phi-4，小模型也可以擅长数学推理

速递丨小红书日搜索量1年翻倍已接近百度一半，百度失去搜索龙头地位或只是时间问题

速递丨监管机构已要求拼多多调整“仅退款”政策，称为小型商家带来了不公平的负担

速递丨TikTok起诉加拿大政府，要求撤销关停加拿大子公司的命令

ZPedia丨2024年11月AI产品榜单，Kimi登顶国内总榜，豆包狂追不止，Kling AI连续2月大跌

速递｜面壁智能完成新一轮数亿元融资，将在端侧AI领域加速商业化布局

速递｜小红书重组业务部门成立应用算法部，商业化进一步提速

速递｜英伟达反垄断调查或是”警告“，但仍可能面临销售额10%近10亿美元罚款

速递｜亚马逊押注agent成立新实验室Amazon AGI，Adept华人联创David Luan领导！

深度｜张一鸣正亲自下场招募AI大牛，字节布局海外算力已成为英伟达在亚洲最大客户之一

速递｜TikTok请求暂停拆分禁令待最高法院审查，拜登政府希望法院迅速驳回

速递｜腾讯或搁置收购《刺客信条》开发商育碧，与吉勒莫家族因控制权争议陷入僵局

速递｜英伟达涉嫌垄断被立案调查，此前收购迈络思案的限制性条件到底是什么？

速递｜前百川智能联合创始人洪涛离职，或因AI商业化不达预期

速递｜字节、阿里和腾讯将在AI顶会NeurIPS上演抢人大戏，这一届AI博士应届年薪165万

速递｜德勤起诉中国区前副主席等3位合伙人，称下载大量机密文件用于加入竞争对手

速递｜TikTok网红担心禁令将使粉丝一夜清零，正向Ins和YouTube倒流

速递｜最高法院可能不会受理，字节希望暂停禁令时间与特朗普政府达成协议，否则1个月后将被迫关停美国业务并裁员

深度｜DeepMind CEO对谈诺奖得主：AI无法替代人类科学家，科学最难的是提出正确的问题

速递｜TikTok败诉，华盛顿特区上诉法院裁定拆分法案有效，字节需要在1月19日之前出售TikTok

速递｜朱啸虎隔空喊话杨植麟：回避了所有问题，要堂堂正正的做人做事

速递｜杨植麟回应朱啸虎，但很多问题我们还是一头雾水

ZPedia｜夸克搜索：90后都在用的阿里“秘密武器”，其实是AI全能助手的AI搜索

速递｜砺思资本对冲基金今年已实现53%回报率，明年1月将推出2亿新基金

速递｜马斯克的xAI又融了60亿美元，估值已超400亿美元

速递｜朱啸虎表示金沙江创投愿意豁免月之暗面及创始人，但会继续追责张予彤

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉