蚂蚁交互智能实验室最新开源Framer:用两张图片交互式生成轨迹可控的视频

企业   2024-12-19 12:24   浙江  


视频帧插值是一种通过在两个连续的视频帧之间插入新的帧来增加视频帧速率的技术。它可以提高视频质量,并使视频看起来更加平滑和流畅。

例如,在电影中,通常每秒播放24个帧,但在电视上播放时,可能会降低到每秒30个帧。这会导致视频看起来有些卡顿和不连贯。通过使用视频帧插值技术,可以在这些帧之间添加更多的帧,从而使得视频看起来更加流畅。

当然,也可以通过通过帧插值的方式做图像变形;

或者将卡通和素描稿件生成视频等等。

01.

 Framer 是什么?

Ant Research


Framer 是浙江大学与蚂蚁技术研究院交互智能实验室联合提出的一种基于视频扩散模型的交互式视频帧插值方法。它利用了大型预训练的视频扩散模型的强大视觉先验能力,可以根据用户的创意,在两张图片之间产生平滑过渡的帧。

该方法不仅支持将起始和结束帧作为输入,还允许用户自定义轨迹,以更好地控制局部运动。此外,该方法还可以通过关键点建立跨帧对应关系,从而处理更复杂的场景。为了简化使用,该系统还提供了自动模式,可以自动估计关键点并优化轨迹。

实验结果表明,Framer 在图像变形、视频生成、卡通插值等应用中具有良好的性能。

02.

 Framer 解析

Ant Research

传统视频帧插值方法通常依赖于估计光学流或运动来确定性地预测中间帧。虽然在这个领域已经取得了显著的进展,但这些方法在涉及大运动或物体外观发生重大变化的情况下会遇到困难,因为光流估计不准确。
为了解决由于起点和终点之间差异较大而导致的模糊问题,Framer 方法采用了以下改进措施:

- 使用Co-Tracker算法获得整个视频中的关键点轨迹,去除不可见的关键点,并根据运动大小增加关键点采样概率。
- 将关键点坐标转换成高斯热力图,作为控制模块的输入。
- 在编码器后添加控制网络分支,将轨迹映射后的特征与解码器结合,增强对应特征的注入效果。
此外,在将一个图像转换为另一个图像时,有许多可能的方式可以过渡对象和场景。确定性的结果可能与用户的期望或创意意图不符。此外,Framer 还提供了一个“自动驾驶”模式,在此模式下,系统会自动估计关键点并优化其轨迹,不仅降低了用户操作复杂度,还提高了用户体验,使得即使是非专业用户也能轻松上手。

完整解析可以查看论文,链接:
https://arxiv.org/abs/2410.18978

03.

 应用效果展示

Ant Research

用户自定义轨迹的视频插帧。
用户自定义运动轨迹的图像变形。
无须用户控制轨迹的视频插帧。
创意视频生成。
用卡通和素描稿件生成视频。
完整视频效果展示
Framer 现在已经可以在 HuggingFace 上在线试用,感兴趣的朋友可以去尝试一下。
https://huggingface.co/spaces/wwen1997/Framer
同时代码后续也将开源在 GitHub 上,大家可以提前关注一波!
https://github.com/aim-uofa/Framer

04.

 关于作者

Ant Research

Framer 的作者们来自于浙江大学沈春华老师团队和蚂蚁技术研究院交互智能实验室,其中一作 Wen Wang (王文)是沈春华老师指导的博士生,研究方向为计算机视觉和生成模型,同时也是蚂蚁技术研究院交互智能实验室研究实习生。

作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室聚焦视觉和 NLP 基础模型研究,开发通用人工智能算法架构,包括内容生成、多模态理解、数字人技术等人机交互关键技术。



蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
 最新文章