最新大模型论文 | 智源提出全新扩散架构OmniGen!目标检测最新SOTA模型D-FINE!

文摘   2024-10-29 20:04   广东  
NO.1

智源提出全新扩散架构OmniGen,一统图像生成

  • 论文地址: https://arxiv.org/pdf/2409.11340

  • 代码仓库: https://github.com/VectorSpaceLab/OmniGen

  • Demo地址: https://huggingface.co/spaces/Shitao/OmniGen

近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。

OmniGen 模型具有良好的简洁性和易用性,集成了多种基础图像生成任务,包括但不限于:文生图、图像编辑、角色一致性生成、基于视觉条件的生成等。OmniGen 支持基于任意多模态的文图指令完成任务,而无需任何其他额外插件和操作。

OmniGen 具有以下特点:

  1. 统一性OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。

  2. 简单性OmniGen 的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块(如 ControlNet 或 IP-Adapter),从而大大简化了工作流程。

  3. 知识迁移:受益于统一格式的学习,OmniGen 有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。研究人员还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。


图注:基于 OmniGen 的通用能力,可实施更灵活的图像生成,以上展示一个简单 Pipeline:文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合。



OmniGen 集多项能力于一体,包括但不限于:

  1. 文本到图像生成 (Text to Image Generation)

  2. 指代表达生成 (Referring Expression Generation)

  3. 通用图像条件生成 (General Image Conditional Generation)

  4. 图像编辑 (Image Edit)

  5. 经典计算机视觉任务:图像去噪、边缘检测、姿态估计等

  6. 一定的上下文学习能力 (In-context Learning)

OmniGen 的核心设计原则是:简洁和有效。

OmniGen 的基本架构为:一个 Transformer 模型和一个VAE模块,共 3.8B 参数。其中,Transformer 继承于 Phi3-mini 模型,图像内部改用双向注意力(Bidirectional Attention) 以契合图像数据特性。

图:OmniGen 的基本架构

NO.2

目标检测最新SOTA模型D-FINE:超越YOLOv10/11、RT-DETRv2/3!

  • 论文地址: https://arxiv.org/abs/2410.13842

  • 项目地址: https://github.com/Peterande/D-FINE

在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域,性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略,导致性能逐渐趋于饱和。

为了打破这一瓶颈,来自中科大的研究团队提出了 D-FINE,重新定义了边界框回归任务。

不同于传统的固定坐标预测,D-FINE 创新了两种方法:细粒度分布优化 (FDR)全局最优定位自蒸馏 (GO-LSD)

  • FDR 将回归过程从预测固定坐标转变为迭代细化概率分布,从而提供细粒度的中间表示,显著提高定位精度。
  • GO-LSD 是一种双向优化策略,它通过自蒸馏将定位知识从细化分布转移到较浅的层,同时还简化了较深层的残差预测任务。

此外,D-FINE 在计算密集型模块和操作中采用了轻量级优化,在速度和准确性之间实现了更好的平衡。

在 COCO 数据集上,D-FINE-L 和 D-FINE-X 分别以 8.07 ms (124 FPS) 和 12.89 ms (78 FPS) 的时延取得了 54.0% 和 55.8% 的 AP,远超其余所有实时目标检测器,打败了 YOLOv10 (53.2%,54.4%)、YOLO11 (53.4%,54.7%) 及 RT-DETRv2 (53.4%,54.6%)

在 Objects365 上进行了简单的有监督预训练后,D-FINE 的准确率达到了 59.3% AP。在 paperwithcode 网站的 Real-Time Object Detection on MS COCO benchmark 上,D-FINE 的速度和性能都远超其他方法,取得了 Top1 的成绩。

相比 baseline RT-DETR,D-FINE-L 和 D-FINE-X 大幅降低了参数量和计算复杂度。在推理速度显著提升的同时,分别取得了 1.8% 和 3.2% 的显著性能提升。

NO.3

时序大模型突破十亿参数,华人团队发布Time-MoE

  • 论文链接:https://arxiv.org/pdf/2409.16040

  • 代码链接:https://github.com/Time-MoE/Time-MoE

近日,由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科研团队携手通力合作,创新性地提出了一种基于混合专家架构(Mixture of Experts, MoE)的时间序列基础模型 Time-MoE首次将时间序列预训练大模型的参数规模推向十亿级别,在时序预测领域实现了里程碑式的突破

图:Time-MoE 模型框架
与此同时,团队精心整理了预训练数据集 Time-300B这是目前时序领域最大的公开数据集,为各类时序任务提供了前所未有的通用解决方案。这是首次在时序领域中采用如此大规模的预训练模型,标志着时序预测技术迈入了一个全新的时代。

Time-MoE 模型通过MoE架构的独特优势,将模型参数成功扩展至 24亿,不仅显著提升了预测精度,还在降低计算成本的同时超越了众多现有模型,全面达到了SOTA(State of the Art)水平。

关键技术突破:

  1. 强大的混合专家架构Time-MoE 采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。

  2. 灵活的预测范围Time-MoE 支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。

  3. 全球最大规模的开源时序数据集:团队开发了Time-300B数据集,涵盖9个领域的超过3000亿个时间点,为模型提供了丰富的多领域训练数据,确保其在多种任务中的卓越泛化能力。


图:在相同激活参数条件下,Time-MoE显著超越了现有的时序基础模型。在相同的FLOPs下,其稀疏架构展现出相较于密集模型的卓越精度优势。

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章