上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

文摘 2024-09-10 00:00 江苏

上交提出了一种新颖的多风格面部素描合成模型，旨在解决现有面部素描合成（FSS）方法在高质量素描生成中面临的挑战，包含数据不足、风格类型受限及模型输入处理缺陷等问题。简单说，就是输入一张人脸照片和想要的素描风格后，计算机会试着在脑海中"填补"相应的素描。首先，系统会把照片转换成一系列简化的标签，然后通过机器的学习，不断地根据样式要求，做出更准确的素描。整个过程其实就像是在猜测和创作一样，但不是凭空想象，而是依赖于之前的例子进行反向推理。

多风格FSS的插图。通过将人脸图像作为唯一的输入，该方法能够稳定地生成训练集中没有包含的具有多种风格的相应草图。

论文阅读

通过蒙面生成建模的多风格面部素描合成

摘要

面部素描合成 (FSS) 模型能够根据给定的面部照片生成素描肖像，在多个领域具有深远的意义，包括跨模态人脸识别、娱乐、艺术、媒体等。然而，制作高质量的素描仍然是一项艰巨的任务，主要原因是与三个关键因素相关的挑战和缺陷：

艺术家绘制数据的稀缺性
风格类型有限的限制
现有模型在处理输入信息方面的不足。

为了解决这些困难，我们提出了一个轻量级的端到端合成模型，它可以有效地将图像转换为相应的多风格素描，从而无需任何补充输入（例如 3D 几何图形）。在本研究中，我们通过将半监督学习纳入训练过程来克服数据不足的问题。此外，我们采用特征提取模块和样式嵌入来熟练地在迭代预测蒙版图像标记时控制生成转换器，从而实现连续的风格化输出，在草图中准确保留面部特征。大量实验表明，我们的方法在多个基准测试中始终优于以前的算法，表现出明显的差异。

方法

为了解决上述问题，本研究的核心方法涉及Mask Generative Modeling（MGM），并设计了一种分阶段的训练过程。模型的输入包括人脸照片和样式条件，而输出为所需的素描。首先，模型通过VQ-tokenizer将图像转化为潜在标记，并使用编码器提取人脸特征。这些特征随后被输入到变换器中，网络会在潜在空间中逐步恢复被遮挡的图像标记，通过学习重建这些标记来实现图像生成。训练过程中，采用了Masked Image Modeling (MIM) loss来优化变换器，确保合成素描与真实素描之间的相似性。在解码阶段，合成的潜在标记通过解码器重构为最终的素描输出。模型不仅针对单一风格进行训练，还能通过调整风格参数，生成多样风格的中间输出，实现了风格插值。

训练模型时，利用许多带有素描的照片，并且通过两轮的学习逐步提高准确性和细节表现，最终能输出风格各异、细腻真实的素描。这种方法的优势在于，不需要复杂的额外材料，单靠一张照片就能生成多种风格的素描，从而让生成的图像更为灵活多变。

实验

多风格FSS的插图。通过将人脸图像作为唯一的输入，我们的方法能够稳定地生成训练集中没有包含的具有多种风格的相应草图。

各种典型方法合成的草图比较。

质量的一代跨越各种基准

合成不同风格参数的草图。每列底部的数字是样式参数s。

结论

针对当前人脸素描生成算法发展过程中面临的数据不足、风格受限、输入复杂等问题，本文提出了一种创新高效的基于蒙版生成模型的人脸素描生成算法。该算法利用半监督和自监督学习技术，不仅缓解了数据不足带来的挑战，而且避免了使用训练不稳定的GAN，而后者是当前主流素描人脸生成的基础模型。此外，该算法具备在不同风格之间进行插值的能力，这是大多数现有人脸素描生成算法所缺乏的功能。这使得生成的素描能够超越训练集中有限的风格，并一致地生成不同风格之间的中间风格。该算法不需要复杂的额外信息输入，一张人脸照片就可以生成相应的素描。一系列公平的实验也证实了该算法更高的生成质量，以及其在背景和前景分离以及多风格生成方面的优势。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487721&idx=1&sn=2d59afa5843c24dc595adc168504541a

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

相关链接

论文阅读

摘要

方法

实验

结论