单目视觉4D重建再突破!谷歌DeepMind推出多视角视频扩散模型CAT4D,单视角视频也能转换多视角了。
单目视觉4D重建再突破!谷歌DeepMind等团队,推出了多视角视频扩散模型CAT4D,它支持输入单个视角的视频,转换后可以自行拖动。
论文介绍
工作原理
它是如何运作的
独立的摄像头和时间控制
CAT4D 的核心是多视图视频扩散模型,它可以解开摄像机和场景运动的控制。我们通过给定 3 个输入图像(带有相机姿势)生成三种类型的输出序列来演示这一点:1)固定视点和变化时间,2)变化视点和固定时间,3)变化视点和变化时间。
比较
将我们的方法与不同任务的基线进行比较。尝试选择不同的任务和场景!
给定 3 个输入图像,我们生成三种类型的输出序列:
1. 固定视点和变化时间 2. 变化视点和固定时间 3. 变化视点和变化时间。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~