百度搞了个AI的新玩法!网友:这波厉害了!

科技   2024-06-20 18:17   北京  

今天给大家分享下百度设计团队如何借助 AIGC 来实现百度UGC生态的繁荣,为大家详细拆解AI人像的生成模式。

前言

生成式AI影音已经成为当下社交平台流行的展示方式,特别是在节日和网络热点期间,大家纷纷投入到当下最流行的生成式AI玩法中,目前比较流行的有AI写真馆、AI风格化及AI视频。

UGC产品结合最新技术上线AI发布器玩法,旨在实现AI大众化,借助 AIGC 来实现百度UGC生态的繁荣。特别是在春节期间迎来爆发式传播,推出了迎财神、龙潮儿、烟花、汉服、召唤神龙5款生成式AI玩法。本文针对百度APP AI发布器在春节期间推出的5款生成式AI玩法,为大家详细拆解AI人像的生成模式。


.AI成像调研-离线&在线风格化

百度团队调研了市面上众多AI人像玩法中两种最常见的形式,将其总结为“离线风格化”和“在线风格化”。

“离线风格化”大多类似真人写真,适合生成写实照片,我们所看到的抖音、小红书等平台推出的热门AI写真,如滑雪、游园灯会、景点旅行、异域换装等大多都是运用离线风格化生成的。

“在线风格化”不仅限于写实照片,还可以实现漫画、插画、油画、抽象等各种风格。我们也会在抖音、小红书等平台看到类似玩法,如厌世插画风、宠物、CG等,但其大多只改变了用户图片的风格,与AI发布器的在线风格化还是有所不同。

接下来基于春节AI玩法实例,给大家介绍一下百度APP AI发布器的“离线风格化”和“在线风格化”的工作流和核心AI技术。


.离线风格化玩法

离线风格化是AI写真玩法最常见的形式,简而言之,就是离线生成图像之后再进行AI技术融合成图,AI迎财神就是离线风格化玩法。

1.离线风格化的生成工作流


离线风格化主要分为三个阶段:模板生成-用户面部融脸-AI视频合成。
其中“模板生成”和“AI视频合成”两部分会根据不同的主题、节日、风格等进行视觉设计的替换,而“用户面部融脸”部分技术层面不会有太大的变动,但是生成方式会根据不同的设计方案进行细微调整。

2.离线模板生成

离线风格化的核心难点是模板的生成,百度团队需要通过调研用户喜好,预置相应的写真模板来吸引用户参与。


step1:以AI迎财神为例,在初期,百度团队会进行财神人像风格测试生成,预备几套财神风格的视觉提案,经过层层测试后选择效果最好的风格。
step2:确定风格之后,将模板针对用户分为成年男性、成年女性、男童、女童4种,进行针对性造型设计。
step3:进一步细化光影、肤色、造型等,并针对每个性别的用户量预置几个固定模板放入模型库。
最后百度团队加入设计的文字版式,就完成了离线模板的静态融脸底图。

3.融脸技术

“AI融脸”作为离线风格化的核心技术支撑,需要在生成模板阶段进行同步测试。目前我们采用的融脸技术是自主研发的VIS融脸,除了确保五官相似度外,还会提取用户的肤色、皮肤细节等融合到模板中,并规避了面部的遮挡问题,如刘海、疤痕等,同时可以识别用户佩戴的眼镜,避免提取眼镜之后导致用户五官比例不协调。
4.AI视频玩法

在完成离线模板、融脸测试后,最后一步是将用户融脸后的静态图片加上视频效果,这也是用户最终生成的效果。目前AI发布器一共有15+类特色视频风格,覆盖多种类型的AI写真玩法。



.在线风格化玩法

在线风格化是百度APP AI发布器研发的另一种AI生成式玩法,相较离线风格化更能带给用户定制的感受,同时流程也相对复杂,会根据模型和玩法形成不同的流程。AI龙潮儿、AI烟花、AI汉服、AI召唤神龙都是在线风格化玩法,但是这4种玩法根据不同的成像需求采用了2种不同的生成流程。
1.在线风格化的生成工作流

百度团队经过大量测试和研究,搭建了在线风格化的一个基础组成形式:生图模式+底层大模型+人脸识别模式。其中“生图模式”和“人脸识别模式”根据不同的效果和需求有不同的选择,是最大的变量。将这些变量拆分重组,预置各种用户生图的场景模式,开发了一共5种生图线的10种生图方式,搭建完成了生图平台基本框架。
最终在用户视角呈现的生图流程为:上传用户照片-人脸识别-生成面部区域-模型生图(风格模型+面部控制模型)-二次生图-成图。

其中风格模型和面部控制模型是在线风格化生图玩法的核心部分,风格模型决定了呈现的画面视觉,可以有写实、二次元、插画、游戏等多种视觉风格,面部控制模型主要针对用户特征的提取融合,决定了用户的关联度。

2.大模型风格迁移:AI烟花&AI召唤神龙

在风格模型部分,我们可以选择一些AI开源大模型,测试一些适合的模型,如AI烟花、AI召唤神龙。我们选择适合的通用写实胶片、水墨插画的底模,再配合prompt,就可以生成烟花和水墨插画的效果。

但AI召唤神龙的水墨龙造型和服装,是采用的自主研发“定制模型”,下面会给大家介绍“定制底模”的研发过程。

3.定制化模型训练:AI寻找龙潮儿&AI汉服

除了已有的风格开源模型之外,百度团队还有了进阶的想法,想做一些百度APP AI发布器的特色玩法,于是我们开发了AI龙潮儿、AI汉服2种模型风格,一个是龙年皮肤生成,一个是拜年汉服换装。

在没有现有底模的情况下,百度团队需要训练一个“定制模型”作为春节风格化玩法的核心视觉支撑。

1)服装模型训练

以AI汉服为例,我们需要训练一款特色汉服模型。百度团队通过5000+的服装测试结果,训练出了12种男、女、儿童的汉服装扮,将这些服装样式打上相应的标签写入后台,通过标签的调用生成相应的服装装扮。

服装模型的训练不是一步成型的,在训练过程中会遇到各种问题,如男女服装混淆、男童长胡子等。同时汉服因为特定的装扮问题,需要搭配发型、发饰等,男女的差异会很大,男生多发髻、男女发型混乱等问题是最常见的。对此,百度团队经过反复训练测试,逐个击破,最终调试到最优质量,确保生成优质率达到90%+。

2)构图模型训练

在AI寻找龙潮儿的视觉效果设计中加入了龙的参与,这就涉及到一些龙和人的组合问题。为此,百度团队研究了组合构图的训练方式,多次尝试,专门训练了一款构图模型来控制2种物体的组合位置,包括龙的左右构成、头顶构成、正面、背后、环绕、坐骑、大小形态、数量等10+构图形式,并且针对男、女、儿童都设计了不同的组合风格和造型。

市面现有的龙模型多以西方龙为主,为了更贴合中国新年氛围、更具中国特色,加入了大量东方龙的造型数据,以确保生成的龙具有中式龙的威严,减少西式的邪恶狰狞感。经过层层打磨,稳定出图效果,强化风格、细节、服装、光影等,最终呈现出最优质的线上视觉效果。


4.在线融脸技术研究

在线风格化玩法的另一个核心点在于在线融脸技术,在风格模型调优的同时,我们加入用户面部的控制模型来控制图片相似度,最终构建了5种面部控制模型组成的10个面部控制方式。

4个AI玩法也都根据模型和用户面部的适配选择了不同的控制方式,如AI烟花是胶片写实风格,最贴合用户实际面部,选择的是基础的五官控制模型;AI召唤神龙是水墨风格玩法,与用户照片相差比较大,所以需要降低五官精准控制,加强风格化的控制模式;AI寻找龙潮儿和AI汉服是轻写实风格,采用提取五官比例和特征的形式达到最优融合的效果。

面部的控制模型需要根据不同的风格进行反复调试,解决面部与模型融合带来的各种问题,如瞳孔畸变、素颜装扮违和、面部精致度等,需进行多层次的修复迭代。

.线上效果展示

最后给大家展示百度APP AI发布器的特色新年活动的线上效果。

百度APP AI发布器经过一个季度的打磨和升级,目前已经上线包括五一、妇女节、短剧、春日百花、浪姐变装、武侠、旅行、音乐节变装、古典江南、六一儿童节、粘土特效等10余种特色活动玩法。今后也将进一步深耕AI技术研究,推出更多定制活动玩法,希望能结合用户喜好,让用户能参与到自制AI玩法中去,进而开发出AI生图的更多可能性。

UI头条
原iconfans,UI中国-专业界面交互设计平台的官方账号。官方消息发布,分享优秀设计文章,UI招聘相关信息,行业消息,服务UI设计师群体!
 最新文章