比扩散模型快50倍！OpenAI发布多模态模型实时生成新工作！作者均是清华校友，把休假总裁Greg都炸出来了！

科技 2024-10-30 13:05 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

西风发自凹非寺
转载自：量子位（QbitAI）

两位清华校友，在OpenAI发布最新研究——

生成图像，但速度是扩散模型的50倍。

路橙、宋飏再次简化了一致性模型，仅用两步采样，就能使生成质量与扩散模型相媲美。

他们成功将连续时间一致性模型的训练规模扩展到了前所未有的15亿参数，并实现了在512×512分辨率的ImageNet数据集上的训练。

参数15亿模型在单张A100 GPU上无需任何推理优化即可在0.11秒内生成一个样本。

团队还表示通过定制系统优化，可以进一步加速，为实时生成图像、音频和视频提供新的可能。

值得一提的是，论文仅有的两位作者还都是清华校友。

该项研究发布后得到大量网友点赞转发。

把正在休假的Openai总裁Greg Brockman都炸出来了：

多模态模型正迈向实时生成。

那么，sCM是如何实现的？

两步采样，50倍加速

一致性模型是一种快速的扩散模型替代方案。

当前扩散模型的采样方法通常需要数十到数百个连续步骤才能生成单个样本，这限制了其实时应用的效率和可扩展性。

与逐步通过大量去噪步骤生成样本的扩散模型不同，它旨在一步直接将噪声转换为无噪声样本。

OpenAI最新这项研究提出了一种改进连续时间一致性模型（Continuous-time Consistency Models）的综合方法，主要包含题目中提到的三个关键点：简化、稳定和扩展。

论文：https://arxiv.org/abs/2410.11081

论文指出，现有一致性模型主要采用离散时间步训练，这种方法会引入额外的超参数并容易产生离散化误差。尽管连续时间公式可以避免这些问题，但之前的工作中连续时间一致性模型始终面临训练不稳定的挑战。

为此，论文首先提出了TrigFlow，巧妙地统一了EDM（Exponential Diffusion Model）和Flow Matching两种方法。

TrigFlow使扩散过程、扩散模型参数化、PF-ODE、扩散训练目标和一致性模型参数化都能够拥有简洁的表达式，如下所示。

在此基础上，研究人员深入分析了导致训练连续时间一致性模型不稳定的原因。

在TrigFlow框架的基础上引入了几项理论上的改进，重点是参数化、网络架构和训练目标。

连续时间一致性模型训练的关键是：

取决于：

经过进一步分析，研究人员发现不稳定源自于时间导数：

并据此提出了三个关键改进：

采用恒等时间变换c_noise(t)=t代替原有的对数正切变换，避免了t接近π/2时的数值不稳定性；
使用位置时间嵌入替代傅里叶嵌入，减少了导数震荡；
引入自适应双重归一化层替代AdaGN，在保持模型表达能力的同时提高了训练稳定性。

此外，论文还改进了训练目标，包括切向量归一化和自适应权重等技术。

以上种种改进使得研究人员成功将时间一致性模型的训练规模扩展到15亿参数，并在多个基准数据集上表现优异。

CIFAR-10上的FID（越低越好）为2.06，ImageNet 64×64上为1.48，ImageNet 512×512上为1.88。

特别值得注意的是，这些模型只需要两步采样就能达到接近最好的扩散模型的生成质量（FID差距在10%以内），而计算开销仅为后者的10%。

研究人员还比较了改进后的一致性模型与变分分数蒸馏（VSD）方法的区别，发现一致性模型能产生更多样的样本，并且在更高的引导水平下表现更好。

他们还有一个关键发现，随着teacher扩散模型的规模扩大，sCM的改进也呈比例增加。

用FID分数的比率来衡量样本质量的相对差异在模型大小不同的规模上是一致的，这意味着当模型规模增加时，样本质量的绝对差异会减小。

此外，增加sCM的采样步骤可以进一步减少质量差距。

作者简介

路橙

去年在清华大学TSAIL实验室，在朱军教授指导下获得博士学位；2019年获清华大学计算机科学与技术系学士学位。

现在他是OpenAI研究科学家，对大规模深度生成模型和强化学习算法感兴趣。

喜欢在数学理论和实际应用技巧之间找到理想的平衡点。

他对一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D 生成和强化学习中的应用有丰富的研究经验。

宋飏

宋飏在清华大学获数学和物理学士学位后，在斯坦福大学获得了计算机科学博士学位，导师Stefano Ermon。

其研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。

目前，宋飏专注于改进生成模型，包括它们的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。

他对探索生成模型作为科学发现工具的潜力也很感兴趣。

参考链接：
[1]https://x.com/OpenAI/status/1849139783362347293
[2]https://luchengthu.github.io/
[3]https://yang-song.net/

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

租GPU算力又一轮价格暴跌，对高校和企业意味着什么？

李飞飞团队新作！统一动作与语言，全新多模态模型不仅超懂指令，还能读懂隐含情绪

ICML 2025、IJCAI 2025顶会投稿微信群成立！

浙江大学发布情况通报

CVPR今年这情况，很严重，大家做好准备吧

顶刊TPAMI 2024！北大提出实用、紧致的智能图像压缩感知技术

ECCV 2024 | 迈向通用激光雷达语义分割！取代Transformer的新架构SFPNet

IJCAI 2025、ICML 2025 顶会投稿微信群成立！

最大的Mamba和遥感微信群成立！

突发：中科院二区TOP期刊被剔除SCI！

一文看尽2024年11种主流注意力机制

大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

复旦&微软提出StableAnimator：首个端到端的高质量ID一致性人类视频生成新框架！

ICLR 2025 快开奖啦！IJCAI 2025、ICML 2025投稿微信群成立！

扩散模型和多模态微信群来了！

颜宁团队，最新成果！

Kaggle大神自述：炼丹经验总结

NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，何恺明谈AI宿命论，Bengio同OpenAI员工吵架。。。

收录顶会！elaTCSF：用于闪烁检测和建模可变刷新率闪烁的时间对比敏感度函数

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

ICLR 2025 即将开奖！IJCAI 2025 投稿微信群成立！

第一单位！科技大学，发Nature！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

愤怒！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

天津大学提出iLLaVA：你的大模型仅需处理33%输入

ReID和目标跟踪微信群来了！

拆分！河南，拟建2所新大学

AAAI 2025 开会群成立！转投 IJCAI 2025 投稿微信群来了！

2026届大厂校招群成立！

悼念！清华大学计算机教授、《数据结构》编著者严蔚敏去世，享年 86 岁

NVIDIA自动驾驶技术：从训练到推理

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

AAAI 2025 | CALF：用于长期时间序列预测的高效跨模态LLM微调框架

AAAI收了一篇论文：没算法没实验，全靠idea思路好...

Sora之后，Apple发布视频生成大模型STIV：87亿参数大一统T2V、TI2V任务

NeurIPS 2024 | GarmentLab：衣物与柔体操作的物理仿真环境与基准测试

IJCAI 2025 投稿微信群成立！

扩散模型和多模态微信群来了！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

AAAI 2025接收结果出炉！Mamba再次爆发

谷歌狙击OpenAI，突发Gemini 2.0新一代大模型！主打多模态和Agent

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

2026届AI校招群成立！

ReID和目标跟踪微信群来了！

985教授已发表1226篇论文引争议，本人回应！

只要敢捞偏门，篇篇都是顶会顶刊！

AAAI 2025 | 从架构角度重新审视3D异常检测的多模态融合

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

比扩散模型快50倍！OpenAI发布多模态模型实时生成新工作！作者均是清华校友，把休假总裁Greg都炸出来了！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

西风 发自 凹非寺转载自：量子位（QbitAI）