最新大模型论文 | 智源提出全新扩散架构OmniGen！目标检测最新SOTA模型D-FINE！

文摘 2024-10-29 20:04 广东

NO.1

智源提出全新扩散架构OmniGen，一统图像生成

论文地址: https://arxiv.org/pdf/2409.11340
代码仓库: https://github.com/VectorSpaceLab/OmniGen
Demo地址: https://huggingface.co/spaces/Shitao/OmniGen

近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。

OmniGen 模型具有良好的简洁性和易用性，集成了多种基础图像生成任务，包括但不限于：文生图、图像编辑、角色一致性生成、基于视觉条件的生成等。OmniGen 支持基于任意多模态的文图指令完成任务，而无需任何其他额外插件和操作。

OmniGen 具有以下特点：

统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外，OmniGen 可以处理经典的计算机视觉任务，将其转换为图像生成任务。
简单性：OmniGen 的架构高度简化。此外，与现有模型相比，它更加用户友好，可以通过指令完成复杂的任务，而不需要冗长的处理步骤和额外的模块（如 ControlNet 或 IP-Adapter），从而大大简化了工作流程。
知识迁移：受益于统一格式的学习，OmniGen 有效地跨不同任务迁移知识，应对未见过的任务和领域，并展示新颖的功能。研究人员还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。

图注：基于 OmniGen 的通用能力，可实施更灵活的图像生成，以上展示一个简单 Pipeline：文本生成图像，编辑生成图像的部分元素，根据生成图像的人体姿态生成重绘图像，从另一图像中提取所需对象与新图像融合。

OmniGen 集多项能力于一体，包括但不限于：

文本到图像生成 (Text to Image Generation)
指代表达生成 (Referring Expression Generation)
通用图像条件生成 (General Image Conditional Generation)
图像编辑 (Image Edit)
经典计算机视觉任务：图像去噪、边缘检测、姿态估计等
一定的上下文学习能力 (In-context Learning)

OmniGen 的核心设计原则是：简洁和有效。

OmniGen 的基本架构为：一个 Transformer 模型和一个VAE模块，共 3.8B 参数。其中，Transformer 继承于 Phi3-mini 模型，图像内部改用双向注意力（Bidirectional Attention）以契合图像数据特性。

图：OmniGen 的基本架构

NO.2

目标检测最新SOTA模型D-FINE：超越YOLOv10/11、RT-DETRv2/3！

论文地址: https://arxiv.org/abs/2410.13842
项目地址: https://github.com/Peterande/D-FINE

在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域，性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略，导致性能逐渐趋于饱和。

为了打破这一瓶颈，来自中科大的研究团队提出了 D-FINE，重新定义了边界框回归任务。

不同于传统的固定坐标预测，D-FINE 创新了两种方法：细粒度分布优化 (FDR) 和全局最优定位自蒸馏 (GO-LSD)。

FDR 将回归过程从预测固定坐标转变为迭代细化概率分布，从而提供细粒度的中间表示，显著提高定位精度。

GO-LSD 是一种双向优化策略，它通过自蒸馏将定位知识从细化分布转移到较浅的层，同时还简化了较深层的残差预测任务。

此外，D-FINE 在计算密集型模块和操作中采用了轻量级优化，在速度和准确性之间实现了更好的平衡。

在 COCO 数据集上，D-FINE-L 和 D-FINE-X 分别以 8.07 ms (124 FPS) 和 12.89 ms (78 FPS) 的时延取得了 54.0% 和 55.8% 的 AP，远超其余所有实时目标检测器，打败了 YOLOv10 (53.2%，54.4%)、YOLO11 (53.4%，54.7%) 及 RT-DETRv2 (53.4%，54.6%)。

在 Objects365 上进行了简单的有监督预训练后，D-FINE 的准确率达到了 59.3% AP。在 paperwithcode 网站的 Real-Time Object Detection on MS COCO benchmark 上，D-FINE 的速度和性能都远超其他方法，取得了 Top1 的成绩。

相比 baseline RT-DETR，D-FINE-L 和 D-FINE-X 大幅降低了参数量和计算复杂度。在推理速度显著提升的同时，分别取得了 1.8% 和 3.2% 的显著性能提升。

NO.3

时序大模型突破十亿参数，华人团队发布Time-MoE

论文链接：https://arxiv.org/pdf/2409.16040
代码链接：https://github.com/Time-MoE/Time-MoE

近日，由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科研团队携手通力合作，创新性地提出了一种基于混合专家架构（Mixture of Experts, MoE）的时间序列基础模型 Time-MoE，首次将时间序列预训练大模型的参数规模推向十亿级别，在时序预测领域实现了里程碑式的突破。

图：Time-MoE 模型框架

与此同时，团队精心整理了预训练数据集 Time-300B，这是目前时序领域最大的公开数据集，为各类时序任务提供了前所未有的通用解决方案。这是首次在时序领域中采用如此大规模的预训练模型，标志着时序预测技术迈入了一个全新的时代。

Time-MoE 模型通过MoE架构的独特优势，将模型参数成功扩展至 24亿，不仅显著提升了预测精度，还在降低计算成本的同时超越了众多现有模型，全面达到了SOTA（State of the Art）水平。

关键技术突破：

强大的混合专家架构：Time-MoE 采用稀疏激活机制，在预测任务中仅激活部分网络节点，这不仅确保了高预测精度，还显著降低了计算负担，完美解决了时序大模型在推理阶段的计算瓶颈。
灵活的预测范围：Time-MoE 支持任意长度的输入和输出范围，能够处理从短期到长期的各种时序预测任务，实现了真正的全域时序预测。
全球最大规模的开源时序数据集：团队开发了Time-300B数据集，涵盖9个领域的超过3000亿个时间点，为模型提供了丰富的多领域训练数据，确保其在多种任务中的卓越泛化能力。

图：在相同激活参数条件下，Time-MoE显著超越了现有的时序基础模型。在相同的FLOPs下，其稀疏架构展现出相较于密集模型的卓越精度优势。

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉