论文地址: https://arxiv.org/pdf/2409.11340
代码仓库: https://github.com/VectorSpaceLab/OmniGen
Demo地址: https://huggingface.co/spaces/Shitao/OmniGen
近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。
OmniGen 模型具有良好的简洁性和易用性,集成了多种基础图像生成任务,包括但不限于:文生图、图像编辑、角色一致性生成、基于视觉条件的生成等。OmniGen 支持基于任意多模态的文图指令完成任务,而无需任何其他额外插件和操作。
OmniGen 具有以下特点:
统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。
简单性:OmniGen 的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块(如 ControlNet 或 IP-Adapter),从而大大简化了工作流程。
知识迁移:受益于统一格式的学习,OmniGen 有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。研究人员还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。
图注:基于 OmniGen 的通用能力,可实施更灵活的图像生成,以上展示一个简单 Pipeline:文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合。
OmniGen 集多项能力于一体,包括但不限于:
文本到图像生成 (Text to Image Generation)
指代表达生成 (Referring Expression Generation)
通用图像条件生成 (General Image Conditional Generation)
图像编辑 (Image Edit)
经典计算机视觉任务:图像去噪、边缘检测、姿态估计等
一定的上下文学习能力 (In-context Learning)
OmniGen 的核心设计原则是:简洁和有效。
图:OmniGen 的基本架构
论文地址: https://arxiv.org/abs/2410.13842
项目地址: https://github.com/Peterande/D-FINE
在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域,性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略,导致性能逐渐趋于饱和。
为了打破这一瓶颈,来自中科大的研究团队提出了 D-FINE,重新定义了边界框回归任务。
不同于传统的固定坐标预测,D-FINE 创新了两种方法:细粒度分布优化 (FDR) 和全局最优定位自蒸馏 (GO-LSD)。
FDR 将回归过程从预测固定坐标转变为迭代细化概率分布,从而提供细粒度的中间表示,显著提高定位精度。
GO-LSD 是一种双向优化策略,它通过自蒸馏将定位知识从细化分布转移到较浅的层,同时还简化了较深层的残差预测任务。
此外,D-FINE 在计算密集型模块和操作中采用了轻量级优化,在速度和准确性之间实现了更好的平衡。
在 COCO 数据集上,D-FINE-L 和 D-FINE-X 分别以 8.07 ms (124 FPS) 和 12.89 ms (78 FPS) 的时延取得了 54.0% 和 55.8% 的 AP,远超其余所有实时目标检测器,打败了 YOLOv10 (53.2%,54.4%)、YOLO11 (53.4%,54.7%) 及 RT-DETRv2 (53.4%,54.6%)。
在 Objects365 上进行了简单的有监督预训练后,D-FINE 的准确率达到了 59.3% AP。在 paperwithcode 网站的 Real-Time Object Detection on MS COCO benchmark 上,D-FINE 的速度和性能都远超其他方法,取得了 Top1 的成绩。
论文链接:https://arxiv.org/pdf/2409.16040
代码链接:https://github.com/Time-MoE/Time-MoE
Time-MoE 模型通过MoE架构的独特优势,将模型参数成功扩展至 24亿,不仅显著提升了预测精度,还在降低计算成本的同时超越了众多现有模型,全面达到了SOTA(State of the Art)水平。
关键技术突破:
强大的混合专家架构:Time-MoE 采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。
灵活的预测范围:Time-MoE 支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。
全球最大规模的开源时序数据集:团队开发了Time-300B数据集,涵盖9个领域的超过3000亿个时间点,为模型提供了丰富的多领域训练数据,确保其在多种任务中的卓越泛化能力。
图:在相同激活参数条件下,Time-MoE显著超越了现有的时序基础模型。在相同的FLOPs下,其稀疏架构展现出相较于密集模型的卓越精度优势。