首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

文摘 2024-09-16 00:00 江苏

Motionshop—AI替换视频人物。上传一段视频，AI自动检测视频中的人物，并替换成3D卡通角色模型，生成有趣的AI视频。

相关链接

项目主页：https://aigc3d.github.io/motionshop/

试用地址：https://modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

如何使用

Motionshop—AI替换视频人物，上传一段视频，AI自动识别视频中的运动主体人物，并一键替换成有趣的3D角色模型，生成与众不同的AI视频。

第一步：上传一个包含完整人物的视频（请保证视频一镜到底且人物始终清晰完整，视频会自动截取前30秒）；
第二步：选择视频中要替换的人物（暂时不支持手动选择，算法会自动选择。
第三步：选择要替换的虚拟角色模型并点击生成，等待10分钟即可生成结果

论文介绍

摘要

我们提出了一个框架，用 3D 头像替换视频中的角色。我们的框架由两部分组成：

视频处理管道，用于提取修复的背景视频序列；
姿势估计和渲染管道，用于生成头像视频序列。

通过并行化这两个管道并使用高性能光线追踪渲染器TIDE，整个过程可以在几分钟内完成。

方法

字符检测

通过使用基于 Transformer 的框架将文本信息与现有的闭集检测器紧密融合，零样本目标检测也能取得良好的效果。通过开集目标检测方法检测感兴趣的目标候选，然后采用主导选择方法确定最终的目标区域。

分割与追踪

一旦成功检测到目标，就通过视频对象分割跟踪方法跟踪像素级目标区域，该方法由广泛使用的零样本分割方法、任何对象分割模型 (SAM)初始化和细化。与直接使用 SAM 相比，时间对应性得到提升，以更好地处理视频分割任务。

修复

剩余的图像区域由视频修复方法ProPainter 完成。具体来说，使用循环流完成来恢复损坏的流场，在图像域和特征域上采用双域传播来增强全局和局部时间一致性，同时，仅考虑部分标记的稀疏策略提高了效率并减少了内存消耗，同时保持了性能。

姿态估计

给定人物视频序列，采用姿态估计方法CVFFS 估计稳定人体姿态，采用SMPL 人体模型表示三维人体，是目前广泛应用的人体形态和姿态估计参数模型。

动画重定向

将估计的形状和姿势重新映射到所选的 3D 模型上。然后该模型可以像原始视频中的角色一样自然流畅地播放。即使原始角色和新模型之间存在显着差异，也可以获得令人满意的结果。

照明估算

当新的 3D 模型替换感兴趣的角色时，光照条件需要与原始视频保持一致。我们应用光照估计来更好地融合新的 3D 模型和原始场景。在未来，我们还将使用光照估计来处理阴影。

渲染

全新 3D 模型采用路径追踪渲染引擎TIDE 进行渲染，搭配精准材质系统，辅以运动模糊、时间域抗锯齿、时间域去噪等算法，将真实感与速度完美结合，为用户更高效地获取视频内容奠定了坚实基础。

构成

最后将渲染后的图像与原始视频合成，生成最终的视频。

效果

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487826&idx=5&sn=4bed9145a24e3f5ae11834d5afb614a3

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

最新文章

Seed-Music：字节跳动开发的音乐生成模型支持多种数据输入生成和编辑音乐！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉