首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

【最新开源】英伟达推出 Cosmos 世界基础模型平台，支持物理 AI 系统开发

文摘 2025-01-09 16:04 广东

1月7日，英伟达官宣了首个「世界基础模型」——Cosmos。

在 CES 大会上，老黄称，「AI下一个前沿就是物理AI」。

简单来说，Cosmos 是一个世界模型平台，专为物理AI而设计，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。这些模型的作用非常明确，就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据，以解决该领域数据严重不足的问题。

Cosmos 一共包含了四大功能模块：扩散模型、自回归模型、视频分词器，以及视频处理与编辑流程。

Cosmos 平台发布了 8 个模型，参数量从 4B 到 14B 不等，这些模型在 2000 万小时的视频数据上进行训练，分为扩散（连续 token）和自回归（离散 token）模型两类，支持文本生成视频和文本 + 视频生成视频两种生成方式。

图：英伟达的 Cosmos 平台一次发布了 8 个模型

Cosmos 一共包含了三种规格的模型：Nano、Super、Ultra。

Nano：用于低延迟和实时应用。
Super：用于高性能基线模型。
Ultra：用于最大质量和高保真输出。

与 VideoLDM 基准相比，Cosmos 世界模型在几何准确性方面表现更优，而且在视觉一致性方面持续超越 VLDM，姿态估计成功率最高飙升 14 倍。

与此同时，关于 Cosmos 75页最详细的技术报告也发布了。

技术报告地址：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf

技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型（WFM）平台。

参考：
https://developer.nvidia.com/cosmos?ncid=no-ncid
https://www.nvidia.com/en-us/ai/cosmos/

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

最新开源：Dispider 实现视频LLMs的主动实时交互！又一个媲美 o1 的“开源推理模型”来了！

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】Aria-UI：面向GUI智能交互的多模态模型，超越Claude 3.5

【最新开源】英伟达推出 Cosmos 世界基础模型平台，支持物理 AI 系统开发

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

最新开源：全球首个半导体专用大模型SemiKong 70B发布！全球首个中文安全领域事实性基准评测集！

最新开源：国产大模型DeepSeek-V3来了！阿里云开源首个多模态推理模型QVQ！腾讯推出新型翻译模型 DRT-o1

端侧AI | 小模型 | SLM（11月-12月）

最新大模型：香港多所高校推出多模态大模型Lyra！IBM发布Granite3.1模型！

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

最新端侧AI ：阿联酋TII发布Falcon3！AI Safeguard联合CMU开发Ivy-VL！微软发布超强小模型Phi-4

最新开源：书生·万象多模态大模型InternVL 2.5开源！多模态大模型Maya，指令微调扩展至支持8种语言！

【最新大模型论文】清华刘知远团队提出大模型“密度定律”！MatchVision：足球领域的第一个视觉语言基础模型！...

最新开源：Meta 开源 Llama 3.3：更小规模、更高性能！谷歌新一代视觉语言模型PaliGemma 2！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

最新开源：腾讯上线迄今最大视频生成开源大模型！全球首个去中心化训练的10B级模型已正式开源！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

最新开源：阿里开源QwQ-32B-Preview推理大模型！月之暗面Kimi开源大模型推理架构 Mooncake！

最新开源：「天工大模型4.0」o1版来了！科研神器 OpenScholar 来了！

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

最新开源：阿里巴巴开源推理模型 Marco-o1！智子引擎开源多模态MoE大模型 Awaker2.5-VL!

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

最新开源：边缘设备优化的多模态模型Omnivision！通义灵码团队开源Lingma SWE-GPT！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

最新开源：腾讯再开源两款最新大模型！SAM2Long来了，无需训练大幅提升SAM 2!

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

最新开源：Meta和HuggingFace双双开源「小模型」！超快速、超高性能...

刚刚，ChatGPT变身”AI搜索”，免费用！

最新大模型论文 | 智源提出全新扩散架构OmniGen！目标检测最新SOTA模型D-FINE！

最新开源：智谱发布GLM-4-Voice情感语音模型！Mono-InternVL模型让多模态AI逆袭！

最新开源：Genmo 开源最大视频生成模型 Mochi 1！Stable Diffusion 3.5 全家桶来了！

最新开源：DeepSeek发布Janus，统一多模态理解！复旦、百度联手打造全新AI模型Hallo2！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

最新开源：智源BGE登顶Hugging Face月度榜！北大&快手开源Pyramid Flow！Rhymes AI开源Aria！

最新开源：开源软件 Gradio 上新5大功能！字节跳动发布 GR-2 机器人大模型！全新三维生成模型3DTopia-XL！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉