扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

科技 2024-11-12 13:02 北京

新智元报道

编辑：LRST

【新智元导读】刚刚，一款专为消费级显卡设计的全新非自回归掩码图像建模的文本到图像生成模型——Meissonic发布，标志着图像生成即将进入「端侧时代」。

最近，YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型，来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。

Youtube热烈讨论

那么，这到底是怎么回事呢？让我们一起来看看吧。

近年来，大语言模型在自然语言处理领域取得了巨大的突破，以LLaMA和Qwen等为代表的模型展现了强大的语言理解和生成能力。

但是，图像生成技术的突破主要得益于扩散模型，如Stable Diffusion XL在图像质量、细节和概念一致性方面设立了事实标准。

然而，这些扩散模型与自回归语言模型的工作原理和架构显著不同，导致在视觉和语言任务上实现统一生成方法面临挑战。这种差异不仅使这些模态的整合变得复杂，还凸显了需要创新的方法来弥合它们之间的差距。

自回归文本到图像模型（如LlamaGen）通过预测下一个token生成图像，但由于生成的图像token数量庞大，自回归模型在效率和分辨率上也面临瓶颈，难以应用到实际场景。于是，一些Masked Image Modeling（MIM）技术，例如MaskGIT和MUSE被提出。这些方法展现了高效图像生成的潜力。

尽管MIM方法具有一定的前景，它们仍面临两个关键限制：

1. 分辨率限制

当前的MIM方法只能生成最大分辨率为512×512像素的图像。这一限制阻碍了它们的广泛应用和进一步发展，尤其是在文本生成图像的社区中，1024×1024分辨率逐渐成为标准。

2. 性能差距

现有的MIM技术尚未达到领先扩散模型如SDXL所表现的性能水平，特别是在图像质量、复杂细节和概念表达等关键领域表现不佳，而这些对实际应用至关重要。

这些挑战需要探索新的创新方法，Meissonic的目标是使MIM能够高效生成高分辨率图像（如1024×1024），同时缩小与顶级扩散模型的差距，并确保其计算效率适合消费级硬件。

Meissonic模型提出了全新的解决方案，基于非自回归的掩码图像建模（MIM），为高效、高分辨率的T2I生成设定了新标准。

论文链接: https://arxiv.org/abs/2410.08261

GitHub Code: https://github.com/viiika/Meissonic

Huggingface Model: https://huggingface.co/MeissonFlow/Meissonic

通过架构创新、先进的位置编码策略和优化的采样方法，Meissonic不仅在生成质量和效率上与领先的扩散模型（如SDXL）相媲美，甚至在某些场景中超越了它们。

此外，Meissonic利用高质量的数据集，并通过基于人类偏好评分的微观条件进行训练，同时引入特征压缩层，显著提升了图像的保真度与分辨率。

以下是Meissonic在方法上的几项重要技术改进：

1. 增强型Transformer架构

Meissonic结合了多模态与单模态的Transformer层，旨在捕捉语言与视觉之间的互动信息。从未池化的文本表示中提取有用信号，构建两者之间的桥梁；单模态Transformer层则进一步细化视觉表示，提升生成图像的质量与稳定性。研究表明，这种结构按1:2比例能够实现最佳性能。

2. 先进的位置编码与动态采样条件

为保持高分辨率图像中的细节，Meissonic引入了旋转位置编码（RoPE），为queries和keys编码位置信息。RoPE有效解决了随着token数量增加，传统位置编码方法导致的上下文关联丢失问题，尤其在生成512×512及更高分辨率图像时。

此外，Meissonic通过引入掩码率作为动态采样条件，使模型自适应不同阶段的采样过程，进一步提升图像细节和整体质量。

3. 高质量训练数据与微观条件

Meissonic的训练依赖于经过精心筛选的高质量数据集。为提升图像生成效果，Meissonic在训练中加入了图像分辨率、裁剪坐标及人类偏好评分等微观条件，显著增强了模型在高分辨率生成时的稳定性。

4. 特征压缩层

为了在保持高分辨率的同时提升生成效率，Meissonic引入了特征压缩层，使其在生成1024×1024分辨率图像时可以有效降低计算成本。

那么，Meissonic到底有多强大呢？让我们来看看它的表现：

在HPS V2.0基准测试中，Meissonic以平均0.56分的优势超越了SDXL。

在图像编辑能力评测数据集Emu-Edit上，Meissonic的Zero-shot图像编辑性能甚至超越了经过图像编辑指令微调后的模型。

在风格多样性生成方面，Meissonic展现出超越SDXL的表现。

而这一切，都只需SDXL 1/3的推理时间和1/2的显存占用。值得注意的是，Meissonic可以在8GB显存下运行，让中低端显卡的用户也能受益。

此外，Meissonic还展现了超强的zero-shot图像编辑能力，无需微调即可灵活编辑有mask和无mask的场景，提供了更多创作可能性。

高效推理与训练的结合

在文本到图像合成领域，Meissonic模型凭借卓越的效率脱颖而出。该模型不仅在推理过程中实现了高效性，同时在训练阶段也显著提升了效率。Meissonic采用了一套精心设计的四阶段训练流程，逐步提升生成效果。

阶段一：理解图像基础概念

研究表明，原始LAION数据集的文本描述无法充分满足文本到图像模型的训练需求，通常需要多模态大型语言模型（MLLM）进行优化，但这消耗大量计算资源。

为此，Meissonic在初始阶段采用了更加平衡的策略，利用经过筛选的高质量LAION数据学习基础概念，通过降分辨率的方法提高效率，最终保留约2亿张高质量图像，并将初始训练分辨率设定为256×256。

阶段二：实现文本与图像对齐

第二阶段的重点在于提升模型对长文本描述的理解能力。团队筛选了审美分数高于8的图像，构建了120万对优化后的合成图文对及600万对内部高质量图文对。此阶段，训练分辨率提升至512×512，配对数据总量达到约1000万对，从而显著提升了Meissonic在处理复杂提示（如多样风格和虚拟角色）以及抽象概念方面的能力。

阶段三：实现高分辨率图像生成

在Masked Image Modeling（MIM）领域，生成高分辨率图像仍然是一个挑战。Meissonic通过特征压缩技术高效实现了1024×1024分辨率的图像生成。引入特征压缩层后，模型能够在较低计算成本下实现从512×512到1024×1024的平滑过渡，此阶段的数据集经过进一步筛选，仅保留约600万对高分辨率、高质量的图文配对，以1024分辨率进行训练。

阶段四：精细化美学细节生成

在最后阶段，Meissonic通过低学习率微调模型和文本编码器，并引入人类偏好评分作为训练条件，进一步提升了生成图像的质量和多样性。这一阶段的训练数据与第三阶段保持一致，但更加注重对高分辨率图像生成的美学细节的打磨。

通过上述四个阶段的训练，Meissonic在训练数据和计算成本上实现了显著降低。具体而言，在训练过程中，Meissonic仅使用210万张图像，相较于其他主流模型（如SD-1.5和Dall-E 2），训练数据的使用量显著减少。

在使用8个A100 GPU进行训练的情况下，Meissonic的训练时间仅需19天，显著低于Würstchen、SD-2.1等模型的训练时间。

广泛影响

最近，移动设备上的端侧文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出，反映出提升用户体验和保护隐私的日益趋势。作为一种资源高效的文本到图像基座模型，Meissonic在这一领域代表了重要的进展。

此外，来自斯坦福大学的创业团队Collov Labs在一周内就成功复现出同样架构的Monetico，生成效果可以与Meissonic相媲美，推理效率更加高效，并荣登huggingface趋势榜第一名。这也显示出Meissonic架构在资源高效上的巨大潜力和应用价值。

参考资料：

https://arxiv.org/abs/2410.08261

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652538455&idx=3&sn=f0cdfb75e5e9ffebc4fcfcf1d8141f8b

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉