蚂蚁交互智能实验室最新开源Framer：用两张图片交互式生成轨迹可控的视频

企业 2024-12-19 12:24 浙江

视频帧插值是一种通过在两个连续的视频帧之间插入新的帧来增加视频帧速率的技术。它可以提高视频质量，并使视频看起来更加平滑和流畅。

例如，在电影中，通常每秒播放24个帧，但在电视上播放时，可能会降低到每秒30个帧。这会导致视频看起来有些卡顿和不连贯。通过使用视频帧插值技术，可以在这些帧之间添加更多的帧，从而使得视频看起来更加流畅。

当然，也可以通过通过帧插值的方式做图像变形；

或者将卡通和素描稿件生成视频等等。

01.

Framer 是什么？

Ant Research

Framer 是浙江大学与蚂蚁技术研究院交互智能实验室联合提出的一种基于视频扩散模型的交互式视频帧插值方法。它利用了大型预训练的视频扩散模型的强大视觉先验能力，可以根据用户的创意，在两张图片之间产生平滑过渡的帧。

该方法不仅支持将起始和结束帧作为输入，还允许用户自定义轨迹，以更好地控制局部运动。此外，该方法还可以通过关键点建立跨帧对应关系，从而处理更复杂的场景。为了简化使用，该系统还提供了自动模式，可以自动估计关键点并优化轨迹。

实验结果表明，Framer 在图像变形、视频生成、卡通插值等应用中具有良好的性能。

02.

Framer 解析

Ant Research

传统视频帧插值方法通常依赖于估计光学流或运动来确定性地预测中间帧。虽然在这个领域已经取得了显著的进展，但这些方法在涉及大运动或物体外观发生重大变化的情况下会遇到困难，因为光流估计不准确。

为了解决由于起点和终点之间差异较大而导致的模糊问题，Framer 方法采用了以下改进措施：

- 使用Co-Tracker算法获得整个视频中的关键点轨迹，去除不可见的关键点，并根据运动大小增加关键点采样概率。

- 将关键点坐标转换成高斯热力图，作为控制模块的输入。

- 在编码器后添加控制网络分支，将轨迹映射后的特征与解码器结合，增强对应特征的注入效果。

此外，在将一个图像转换为另一个图像时，有许多可能的方式可以过渡对象和场景。确定性的结果可能与用户的期望或创意意图不符。此外，Framer 还提供了一个“自动驾驶”模式，在此模式下，系统会自动估计关键点并优化其轨迹，不仅降低了用户操作复杂度，还提高了用户体验，使得即使是非专业用户也能轻松上手。

完整解析可以查看论文，链接：

https://arxiv.org/abs/2410.18978

03.

应用效果展示

Ant Research

用户自定义轨迹的视频插帧。

用户自定义运动轨迹的图像变形。

无须用户控制轨迹的视频插帧。

创意视频生成。

用卡通和素描稿件生成视频。

完整视频效果展示

Framer 现在已经可以在 HuggingFace 上在线试用，感兴趣的朋友可以去尝试一下。

https://huggingface.co/spaces/wwen1997/Framer

同时代码后续也将开源在 GitHub 上，大家可以提前关注一波！

https://github.com/aim-uofa/Framer

04.

关于作者

Ant Research

Framer 的作者们来自于浙江大学沈春华老师团队和蚂蚁技术研究院交互智能实验室，其中一作 Wen Wang (王文)是沈春华老师指导的博士生，研究方向为计算机视觉和生成模型，同时也是蚂蚁技术研究院交互智能实验室研究实习生。

作为蚂蚁技术研究院首批落地建成的实验室，交互智能实验室聚焦视觉和 NLP 基础模型研究，开发通用人工智能算法架构，包括内容生成、多模态理解、数字人技术等人机交互关键技术。

蚂蚁技术AntTech

科技是蚂蚁创造未来的核心动力

最新文章

蚂蚁科技奖专场｜湖南大学佃仁伟：高分辨率高光谱智能融合成像

蚂蚁集团两项案例入选首期CCF产学合作基金优秀项目案例

蚂蚁集团牵头起草的《智能计算图计算性能测试方法》国家标准正式获批立项

探索AI时代数据流通的新可能，2024“隐语”开源社区链接全球开发者超2万

论文秀Live#14 AAAI 2025｜智能技术的跨界融合：图像处理与多任务学习的奇妙交汇

浙江大学与蚂蚁集团升级战略合作，共建“数据与智能联合研究中心”

CCF体系结构博士交流与学术辅导会议在蚂蚁集团召开

1/11 报名倒计时｜「第二届隐语开源社区嘉年华」四大亮点抢先看，参会好礼送不停

攻坚安全可信技术，2024年蚂蚁集团16篇论文被顶会顶刊收录

《生成式大模型安全评估白皮书(2024)》正式发布（附下载链接）

蚂蚁集团2024科技生态白皮书 | 过去这一年，蚂蚁工程师平均每天发了一篇顶会论文

蚂蚁集团四个项目入选2024人工智能先锋案例

应对高复杂度业务系统下的网络安全防控问题，“切面融合智能蓝皮书”发布

OceanBase 再度入选 Gartner ® 云数据库管理系统报告“荣誉提及”

第五届中国人工智能大赛成果发布，蚂蚁多项成果入选

蚂蚁保入选2024“金信通”金融科技创新典型案例

三大模态全面落地！蚂蚁天鉴安全实验室通过信通院AIGC多模态检测服务系统评测

MEET 2025｜蚂蚁开源负责人王旭：大模型是新的数据库

蚂蚁交互智能实验室最新开源Framer：用两张图片交互式生成轨迹可控的视频

蚂蚁密算、信通院等发起“密态计算产业链共建行动” 推动数据价值安全释放

开源之夏2024收官， TuGraph和铜锁项目参与学生斩获奖项

信通院发布首批大模型应用落地“样板间工程” 蚂蚁集团两项案例入选

蚂蚁集团20篇论文入选全球AI顶会NeurIPS2024

研讨会预告｜NeurIPS 2024 蚂蚁 Workshop 邀您参加

论文秀Live#12 NeurIPS 2024｜智能科技的深度探索：从知识代理到语言模型训练的成本优化

蚂蚁数科获2024年“金融密码杯”大赛一等奖

我厂程序员，认真起来，相当可爱

NeurIPS 2024论文解析：基于SPU实现的两方密态推理框架深度解读

蚂蚁科技奖专场｜清华大学姚权铭：深度学习的简约之道

三大亮点，不容错过！Ray Forward 2024 议程详情抢先看！

有1700万人，想听图片开口说话

蚂蚁数科获NeurIPS 2024大模型隐私挑战赛赛道冠军

让大模型推理更安全可信，蚂蚁集团这项解决方案获奖

中国人工智能的2024：追赶ChatGPT不再是目标

通向赛博未来：EchoMimicV2半身数字人生成

从大数据到大模型：现代应用的数据范式

蚂蚁技术研究院最新开源：AI P图神器MagicQuill

论文秀Live#10直播预告｜ISSTA 2024论文解读

支付宝参与的“基于云原生的大规模云边协同关键技术及应用”获2023年度浙江省科技进步一等奖

蚂蚁集团旗下AI企业服务公司“数字蚂力”乌镇获奖：入选人工智能创新应用典型案例

致敬热爱技术的你！AFAC2024大赛获奖方案合集，请收藏～

乌镇峰会热议AI反诈：国内首个AI大模型攻防赛收官，全球十强亮相

蚂蚁集团AI技术、风控案例分别获得2024世界互联网大会重要奖项

蚂蚁保“灯塔风盾”获普惠金融产品创新奖，助力保险行业降本增效

世界互联网大会乌镇峰会智能体“桐小乌” 上线支小宝！

专家解读｜构建国家数据标准体系，助力数据要素可信流通发展

蚂蚁技术研究院最新成果WarpDrive被计算机顶会HPCA 2025收录

AI能让小水滴跟着小姐姐一起跳舞吗？

即将收官！「全球AI大模型攻防挑战赛」将在乌镇公布全球十强

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉