Z Highlights
在AI 浪潮全面爆发的时代下,快手凭借其知名的短视频软件,基于自身特性打造出一款具有领先视频及图像生成编辑能力的产品——可灵AI,自发布后在用户规模、活跃度与留存率等方面拥有出色数据。
可灵ai自上市后不断更新迭代,相继推出运动笔刷、对口型等多项首创功能,在近期又推出AI试衣间,实现了众多少女拥有赛博试衣间的梦想。
可灵AI的成功离不开其背后组建的强大的快手AI大模型团队,快手集团集合大量相关领域人才致力研发,获得了广泛成功。
01 应运而兴,启时以行
可灵AI由快手的 AI 团队自主研发,2024 年 6 月 6 日,可灵视频生成大模型官网正式上线,同年11 月,独立 App正式推出。可灵AI的出现,既是时代的产物,更推动了时代的发展。
2022年11月,ChatGPT 流行起来,在短短几天内就吸引了数百万人的关注,2023年后AI的浪潮全面爆发,主要的科技巨头企业纷纷加入了争夺人工智能领域领先地位的竞赛,其应用场景也迅速拓展到众多领域,快手作为国内知名的以短视频为主的互联网科技公司,自然也不甘落后。
由于市面上的大模型AI已经不计其数,简单的重复和复制只会产生同质化产品,要想吸引大众就只能思考如何创新,快手结合自身以短视频平台闻名的特性,推出了全球首款可供公众测试的文生视频大模型产品——可灵AI。可灵AI具有领先的视频及图像生成与编辑能力,如文生视频、图生视频及续写等功能,且自24年6月诞生以来不断升级迭代,展现出了强大的技术研发和产品优化能力。
可灵AI自发布后受到了广泛关注,在7月6日,还未开放全面内测时,其申请人数就超过了50万,视频生成数量达700万,到8月27日,用户数超过160万,累计生成超1600万条视频,11月,数据有了更大的突破,服务用户已超500万,累计生成5100万个视频,超1.5亿张图片,这一系列令人惊叹的数据表明,可灵AI在用户规模、用户的活跃度和留存率都做出了出色的成绩,各方面的努力得到了公众的认可,推动了AI时代的进步。
02 可灵AI因何而火
1、图片生成与编辑
文生图:用户输入文字描述及相关参数,可灵 AI 可生成多种尺寸、多种风格的创意图片。
图生图:根据用户上传的参考图片,生成与之相关的新图片,满足用户多样化的图片创作需求。
图片来源:可灵ai
值得一提的是,目前可灵ai已经支持文字生成功能了,在提示词中输入想要生成的文字,就可以得到既准确又贴合图片的文字生成结果,可图大模型是第一个原生支持中文文字生成的文生图模型。
图片来源:可灵ai
2、视频生成与编辑
(1)文生视频:用户输入一段文字,可灵大模型根据文本生成 5s 或10s 视频,将文字转变为视频画面,现已支持“标准”与“高品质"两个生成模式,标准模式生成速度更快,高品质模式画面质量更佳,同时支持 16:9,9:16与 1:1 三种画幅比例,更多元满足视频创作需求。
图片来源:可灵ai
提示词 = 主体(主体描述)+运动+场景(场景描述)+(镜头语言+光影+氛围)
视频来源:可灵ai,提示词:镜头中景拍摄,背景虚化,氛围光照,一只大熊猫戴着黑框眼镜在咖啡厅看书,书本放在桌子上,桌上还有一杯咖啡冒着热气,旁边是咖啡厅的窗户,电影级调色。
(2)图生视频:输入一张图片,可灵大模型根据图片理解生成 5s 或10s视频,将图片转变为视频画面,输入一张图片加文本描述,可灵大模型根据文本表达将图片生成一段视频。
在可灵 AI 的众多功能里,图生视频功能的使用频率居于首位。从视频创作维度而言,图生视频具备更强的可控性,创作者能够借助预先生成的图片来开展动态视频创作,这一方式极大地削减了专业视频创作所需的成本,同时也降低了创作门槛。而站在视频创意的视角,用户可以运用文本指令操控图片中的主体对象进行运动,像近期网络上热度爆棚的 “老照片复活”,让往昔的记忆鲜活起来;“与小时候的自己拥抱”,跨越时空实现情感交融;还有被网友打趣为吃菌子幻觉视频的 “蘑菇变企鹅” 等创意呈现,无不彰显出可灵 AI 作为创意工具的独特魅力,为用户的创意构想转化为现实开辟了广阔无垠的空间,让各种奇思妙想都有机会落地生根、大放异彩。
视频来源:可灵ai,提示词:蒙娜丽莎用手戴上墨镜,背后出现一道光
(3)视频延长:对ai生成后的视频进行延长处理,单次可续写4-5秒,支持多次续写,最长可延长至3分钟。用户可以选择图生视频功能创作一段视频后,用延长功能对视频进行续写,以增加视频的丰富性和完整性。
视频来源:可灵ai,提示词:盘子里的蘑菇变成一群企鹅爬出来,在雪地里行走
(4)运镜控制:运镜控制现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”,6个基本运镜,以及“左旋推进、右旋推进、推进上移、下移拉远”4个大师运镜,用户也可以通过调节位移参数进行运镜幅度的选择。
视频来源:可灵ai,参数:大师运镜——左旋推进
(5)首尾帧能力:用户上传两张图片,模型将这两种图片作为首帧和尾帧生成视频,可以更好地把握视频的开头和结尾画面,实现对视频更加精细化的控制。
视频来源:可灵ai
(6)运动笔刷能力:运动笔刷允许用户为图片中的元素指定精确的运动轨迹,用户只需将图片中需要控制运动方向的部分勾勒出来,然后画一个示意运动方向的箭头,即可实现对元素运动的精准控制,在可灵 1.5 模型的图生视频专业模式下,用户最多可为图中的 6 个元素分别指定运动轨迹,这意味着可以在同一视频中实现多个元素的复杂运动,比如让画面中的人物、动物、物体等按照各自不同的轨迹运动,相互配合,形成一个富有动态感和故事性的视频。
除了控制元素的运动轨迹外,运动笔刷还支持为某些元素额外指定静止区域,这一功能有助于在视频中突出重点元素或保持画面的整体稳定性,让视频内容有更好的运动控制及运动表现,使整个视频的画面更加协调、自然,避免因过多元素的运动而导致画面过于杂乱
提示词:一只猫跳过了前面的碗
视频来源:可灵ai
3、新功能!AI试衣间
AI试衣间功能新上线,网购也能实现“在线试衣”。
视频来源:哔哩哔哩 可灵ai
支持多种服饰更换:该功能支持单独更换上衣、下衣、连衣裙或套装,甚至能同时更换上衣和下衣。
细节处理精准:AI 能够准确识别人物轮廓、衣物特征,还能合理处理光影和褶皱效果等细节,使生成的试衣效果图更加真实自然,仿佛模特真的穿上了该服装,即使手中持有物品,也不会影响衣服生成的效果。
图片来源:可灵ai
模特选择多样:提供了包括男生、女生、孩子在内的 24 个不同的模特供用户选择,用户可以根据自己的需求选择合适的模特来试穿衣服,更好地预览不同身材、不同风格的试穿效果。
可使用个人照片:除了选择系统提供的模特,用户还可以上传自己的照片作为模特,实现个性化的试衣体验,让用户能够更直观地看到衣服穿在自己身上的效果,有效解决了网购时因无法试穿而导致的衣服不合身等问题。
图片来源:可灵ai
03 快手精英团队打造可灵大模型
盖坤(于越):快手高级副总裁、快手主站业务和社区科学负责人,清华博士,第一批 “阿里星”,2020 年加入快手,担任多项重要职务,在可灵大模型的新版本新功能发布等方面发挥了关键作用。
图片来源:百度图片
张迪:快手副总裁、快手大模型团队负责人。自去年初担任此职务,负责大模型研发团队,聚焦大模型、视觉生成模型和多模态模型等方向,带领团队推动可灵 AI 的发展,并且积极参与相关学术研究,其参与的《parrot:enhancing multi-turn instruction following for large language models》入选顶会 ACL2024。
图片来源:搜狐
万鹏飞:快手视觉生成与互动中心负责人,可灵视频生成模型负责人,毕业于中国科学技术大学和香港科技大学。此前长期担任快手 Y-tech AI 技术中心负责人,牵头快手数字人系列解决方案,在图像 / 视频 / 3D AIGC、XR 与数字人、Mobile/Efficient AI 等技术方向经验丰富。
图片来源:Google scholar
王鑫涛:快手视觉生成与互动中心高级研究员,毕业于浙江大学和香港中文大学 mmlab,师从汤晓鸥,2020 年加入快手,负责领导视觉内容生成,特别是视频生成方面的工作。
图片来源:Google scholar
Xin Tao:快手科技视觉生成组(可灵团队)高级研究员和技术负责人,毕业于上海交通大学和香港中文大学,师从贾佳亚。研究兴趣包括视觉修复和生成,加入快手后专注于高效视频生成和编辑系统的研究和部署。
图片来源:Google scholar
Haotian Yang:毕业于南京大学,曾在 IEEE、AAAI 等顶会上发布论文,2023 年前后加入快手可灵团队。
图片来源:Google scholar
yuangao:快手可灵团队成员之一,目前除合著论文外,公开资料中关于他的更多信息较少。
作者:Meng Ying
审核:Zheng Yi
来源: