更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI

科技 2024-12-18 18:28 北京

冷大炜投稿
量子位 | 公众号 QbitAI

具备原生中文理解能力，还兼容Stable Diffusion生态。

最新模型结构Bridge Diffusion Model来了。

与Dreambooth模型结合，它生成的穿中式婚礼礼服的歪国明星长这样。

它由360人工智能研究院提出，最近刚被AAAI接收，并已开源。

类似ControlNet的分支网络思路

文生图模型的中文原生问题，一直是一个重点研究问题。

受算力和数据因素的限制，国内大量的中文AI绘画产品背后，实际上很多是以开源的英文模型及其微调模型为能力基座，但是，英文模型包括且不限于SD1.4/1.5/2.1/3.5以及DALLE、Midjourney、Flux等，因为这些模型的训练数据以英文数据为主，因此在生成图像时，主体形象包括人物、物品、建筑、车辆、服饰、标志等，都存在非常普遍和明显的英文世界观偏见。

BDM是我们在多模态生成方向比较早期的工作，关注两个关键问题：
1）原生中文及生成模型的世界观偏见
2）与SD生态的兼容性

冷大炜博士对BDM工作的主要着眼点做了如上的精炼概括。

“原生中文”问题指的不仅仅是文生图模型支持中文输入，更核心的是要求模型生成的人、物形象应该符合中文文化的认知。

下图是AI绘画模型的世界观偏见实例，从左到右分别是SDXL，Midjourney，国内友商B*，国内友商V*：

中文AI绘画模型，从实现的路线选择上，从易到难大致有以下几种方式：

英文模型 + 翻译。

简单直接，除了翻译外几无成本。这种方式只能解决表面上的中文输入问题，并不能解决英文模型因为模型偏见而无法生成符合中文文化认知形象的问题。

英文模型 + 隐式翻译。

与显式调用翻译服务不同，这种方式是将英文模型的text encoder替换为中文text encoder，并利用中英文平行语料对中文text encoder进行训练，使其输出的embedding空间与原来的英文text encoder对齐。本质上属于一种隐式翻译，也是成本非常低的一种方案，同样无法解决模型的世界观偏见问题。

英文模型 + 隐式翻译 + 微调。

在上面方法基础上，将对齐了text encoder的模型使用中文图文数据进一步整体微调以提升模型对中文形象的输出能力。可以在一定程度上缓解英文基底模型带来的模型偏见问题。

中文数据从头训练。

这是最彻底的一种中文化方案：理解中文输入，并能给出符合中文文化认知的图像输出结果，可以完美解决模型的世界观偏见问题。

上述四种路线，第4种路线看上去非常完美，但仍有一点值得额外的研发努力：在基座模型之外，我们需要进一步考虑的是大模型时代的模型生态问题。

围绕着以SD为代表的开源模型，已形成了非常庞大的开源社区生态，这个生态中大量衍生风格模型、插件模型等积累了非常宝贵的群体智力资产。

在克服AI绘画模型世界观偏见的基础上，进一步实现对开源社区的兼容，就是我们的BDM工作所要解决的第二个关键问题。

BDM从模型结构上是一种类似ControlNet的分支网络思路，以不同的网络分支学习不同语言的数据，因此从原理上BDM不仅可以实现原生中文图像生成，也可以实现任意X语言的图像生成，并保证生成的图像符合对应语言文化的认知。

英文部分可以直接复用已有的开源模型，从而实现与开源社区的无缝兼容。注意BDM在使用时只需要输入一种语言，比如输入中文时，英文分支是以空文本作为输入的。

BDM v1版本使用10亿量级的中文图文数据进行训练，并兼容SD1.5社区生态。

下图展示了BDM在生成中文特有概念的能力和翻译无法应对的中英多义情况下的生成效果：

下图则展示了BDM在SD1.5社区生态兼容性上的情况，可以看到BDM对不同的SD1.5风格微调模型具有很好的兼容性，特别是BDM同时保持了中文形象的输出能力，更多案例请详见AAAI论文。

关于360人工智能研究院

在360集团All in AI的大背景下，360人工智能研究院发挥自身的智力优势，承担多模态理解和多模态生成大模型（俗称图生文和文生图）的战略研发任务，并在两个方向上持续发力，陆续研发了360VL多模态大模型，BDM文生图模型，可控布局HiCo模型，以及新一代DiT架构Qihoo-T2X等一系列工作。

近日，研究院在多模态理解方向的工作IAA和在多模态生成方向的工作BDM分别被AI领域的top会议AAAI接收，这两项工作的研发负责人为冷大炜博士。

据悉本届AAAI 2025会议收到近1.3万份投稿，接收3032份工作，接收率仅为23.4%。

Arxiv: https://arxiv.org/abs/2309.00952
Github: https://github.com/360CVGroup/Bridge_Diffusion_Model

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

素数分布规律又有新发现！赵宇飞学生与牛津教授合作成果

o3来了！编程跻身人类全球前200，破解陶哲轩说难的数学测试，北大校友任泓宇现身直播间

图森未来转型6个月：推出AI大模型，布局游戏生态，思考和底气是什么？

这届AI创业：不敲一行代码，营收突破百万级

AI已经在直播间狂刷KPI了

AI风暴席卷达摩院青橙奖，六成获奖者用AI搞科研，平均年龄34岁

1万人研究证实：玩游戏提升智力，与遗传/经济水平都无关

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

突发！GPT论文一作Alec Radford离职，前两代GPT作者全部离开OpenAI

不会代码的独立开发者，除了学Cursor，还该会些什么？｜十问爆款「小猫补光灯」

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

12个大模型攒局玩“大富翁”：Claude3.5爱合作，GPT-4o最“自私”｜谷歌DeepMind研究

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

云计算一哥的生成式AI之道：Choice Matters

大模型是新的数据库！蚂蚁开源负责人王旭：应用开发新范式，新一代LAMP正在形成 | MEET 2025

英伟达新品“掌心AI超算”，¥1800跑8B多模态模型，算力暴增70%价格腰斩

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI

我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025

见证历史！AI想的科研idea，真被人类写成论文发表了

从骁龙8至尊版，我看到了AI手机的未来 | 智在终端

新奥程路：AI×能源已到“奇点变革”前夜，仿真大模型是关键｜MEET 2025

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘 | AAAI

刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

谷歌版Sora升级4K高清！一句话控制镜头运动，跑分叫板可灵海螺

ChatGPT搜索与Her打通了！搜索免费开放，居然还剧透明日直播主题

Kimi版o1实装上线，这里是我们的一手测试↑

把1个脑洞发展成1场顶会workshop，阿里妈妈只用了1年｜直击NeurIPS'24

企业级Agent已进入生产力阶段｜BetterYeah AI张毅@MEET

Gemini 2.0成P图神器，各种P图只需一句话的事儿，可把网友馋哭了

21天不用手机，抑郁减少，入睡更快丨正经研究

基于昇腾算力突破AI求解，最高加速100倍！| 华为GTS&深圳市大数据研究院

全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

月薪1万4的ChatGPT要来了！OpenAI自曝其达博士级别，网友：我宁可聘请一个博士

直击CCAI大会：院士专家舌战激辩，20个AI案例C位出道，海淀无愧AI科技“梦工厂”

OpenAI附议Ilya预训练终结！“但Scaling Law还没死”

Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

ChatGPT终于也推出Projects功能，却故意露出一个“AGI”的项目

4000万+用户！测测CEO任永亮：一个行业既不能离AI太近也不能离AI太远 | MEET 2025

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，剪枝合并也无所遁形

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI

冷大炜 投稿量子位 | 公众号 QbitAI

类似ControlNet的分支网络思路

英文模型 + 翻译。

英文模型 + 隐式翻译。

英文模型 + 隐式翻译 + 微调。

中文数据从头训练。

关于360人工智能研究院

冷大炜投稿
量子位 | 公众号 QbitAI