大模型月度回顾 · 2024年12月

文摘 2025-01-05 10:14 上海

本文目录（按时间先后排序）：

2024年12月国内外大模型领域比较有影响力的技术和产品更新汇总。

点击下方卡片，关注“自动驾驶之星”
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

大公司

腾讯发布并开源混元视频生成大模型 HunYuan-Video

时间：12月3日
介绍：
https://mp.weixin.qq.com/s/A9b74q_Fd05asFl1aLlgPQ
官网：
https://aivideo.hunyuan.tencent.com/

腾讯混元宣布了其最新进展，正式上线了视频生成大模型，标志着其在文生文、文生图、3D生成之后的又一次技术突破。这一新功能使得用户能够仅通过输入描述文本来生成视频，支持中英文双语输入以及多种视频尺寸和清晰度。腾讯同步开源了这一视频生成大模型，参数量达到130亿，成为目前最大的视频开源模型，旨在促进视频生成技术的进一步发展和应用。

腾讯混元视频生成大模型（HunYuan-Video）以其130亿参数量在开源领域中独树一帜，提供超写实画质和真实与虚拟风格的自由切换。该模型不仅在动态流畅度和语义一致性上表现出色，还具备导演级的运镜效果和多视角镜头切换能力，使得视频内容的生成更加丰富和专业。

Google DeepMind 发布全新世界模型 Genie 2

时间：12月4日
介绍：
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

Google DeepMind 宣布了其新一代世界模型 Genie 2，这是一个具有里程碑意义的技术突破。Genie 2 能够根据单张图像生成无限多种可控制动作、可玩的3D环境，这些环境不仅可供人类使用键盘和鼠标进行互动，也可用于训练和评估具身智能体。

Genie 2 的出现解决了以往训练具身智能体时面临的一个主要瓶颈——难以获得足够丰富和多样化的训练环境。现在，Genie 2 能够创造一个用于训练和评估智能体的无限新世界，极大地扩展了AI研究的可能性。此外，Genie 2 还支持快速原型设计，使研究人员能够快速试验新环境，从而训练和测试具身AI智能体，这不仅加速了研究进程，也为构建交互式体验原型设计提供了全新的创意工作流程。

微软发布 AI 伴侣产品 Copilot Vision

时间：12月5日
介绍：
https://www.microsoft.com/en-us/microsoft-copilot/blog/2024/12/05/copilot-vision-now-in-preview-a-new-way-to-browse/

微软推出了一款名为 Copilot Vision 的 AI 新产品，这是一款集成在 Microsoft Edge 浏览器中的智能助手，能够实时与用户协作上网并提供帮助。Copilot Vision 通过理解用户在线活动的全部上下文，查看用户正在浏览的页面，并与用户一起阅读，共同讨论遇到的问题，从而使得上网体验不再孤单。这款产品目前处于预览阶段，仅对数量有限的 Pro 版订阅者开放。

Copilot Vision 的设计理念是成为一个“人工智能伴侣”，它不仅能读取用户正在浏览的网页文本，还能看到用户所见的所有图片，实现多模态理解。这款 AI 伴侣的目标是能够记忆用户说过的一切，理解网页内容，并像人一样与用户交谈。随着时间的推移，微软计划谨慎地扩大 Copilot Vision 可以交互的网站列表，并根据用户反馈迭代技术，逐步向更多 Pro 订阅者和网站开放。

Google 发布新一代大模型 Gemini 2.0

时间：12月11日
介绍：
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

谷歌发布了其新一代的AI大模型 Gemini 2.0 Flash，标志着公司在“代理时代”的AI技术发展中迈出了重要一步。Gemini 2.0 Flash不仅在性能上超越了前代版本，具备更快的响应时间和增强的性能，还引入了原生图像和音频输出以及工具使用的能力。这款新模型能够理解周围世界的信息，提前思考多个步骤，并在用户的监督下采取行动，为构建通用助理提供了更接近的实现可能。

Gemini 2.0 Flash 的开发重点在于安全性和责任感，谷歌通过与信任的测试者合作，逐步将这些新技术整合到产品中，并计划在明年初向更广泛的用户群体开放。此外，谷歌还在探索通过Gemini 2.0实现的代理体验，包括Project Astra、Project Mariner和Jules等项目，这些项目展示了AI在多模态理解、人机交互和代码辅助等领域的潜力。

Google 发布新版视频生成模型 Veo 2

时间：12月16日
介绍：
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/
官网：
https://deepmind.google/technologies/veo/veo-2/

谷歌发布了其最新的视频生成模型 Veo 2，这是一个能够根据文本或图像提示生成高真实感和高质量视频的先进模型。Veo 2 在理解真实世界物理、人类动作和表情的细节上取得了显著进步，能够生成长达数分钟、分辨率高达4K的视频。它还能理解电影摄影的独特语言，包括不同的镜头类型和电影效果，从而创造出具有专业感的视频内容。

Veo 2 的发布标志着视频生成技术的一个新里程碑，它不仅在生成质量上超越了现有的领先模型，还能更准确地遵循提示词，生成更丰富和逼真的视频内容。谷歌表示，Veo 2 将被集成到其Google Labs视频生成工具VideoFX中，并计划在未来扩展到YouTube Shorts等其他产品。目前，Veo 2仍处于实验阶段，用户可以通过Google Labs的等待名单申请试用。

字节发布 AI 应用开发平台更新「扣子 Coze 1.5」

时间：12月18日
介绍：
https://mp.weixin.qq.com/s/cnwayo1uczBRu_BP385hWw

字节跳动旗下的AI应用开发平台“扣子 Coze”上线了1.5版本。扣子1.5是一个全新的AI应用搭建平台，它允许用户无论是否具备编程基础，都能快速构建基于大模型的各类Bot，并将这些Bot发布到社交平台、通讯软件或部署到网站等渠道。新版本支持图形用户界面（GUI）搭建界面，并能一键发布为小程序、H5、API等多种应用形态，极大地简化了AI应用的开发和部署流程。

扣子1.5版本强化了多模态能力，支持丰富的多模态模型，并能让用户第一时间体验到豆包（字节跳动旗下的AI模型品牌）的最新大模型。平台还提供了语音OpenAPI和为硬件提供的端插件解决方案，进一步扩展了AI应用的开发范围。此外，扣子1.5拥有海量的精品模板，覆盖多业务场景，用户可以一键复制使用，从而快速启动AI应用项目。

字节发布豆包系列新模型能力全面对齐 GPT-4o

时间：12月18日
介绍：
https://mp.weixin.qq.com/s/WNdxfPXQ4KfqnFxNiCV46g

字节跳动旗下豆包大模型团队在火山引擎 Force 原动力大会上发布了豆包系列新模型，其中包括豆包·视觉理解模型，该模型具备强大的内容识别能力、出色的理解推理能力以及细腻的视觉描述表现。新模型的能力全面对齐GPT-4o，显示出豆包大模型在视觉感知和语言理解方面的重要进步。

除了视觉理解模型，豆包主力通用模型也得到了升级，其综合能力大幅提升，与GPT-4o持平，但在使用价格上仅为GPT-4o的八分之一。此外，豆包·音乐生成模型和豆包·文生图模型也得到了升级，增强了音乐作品的生成能力和图像编辑能力。这些新模型的发布，标志着豆包大模型在多模态理解和生成、模型推理、代码生成等方面的技术进步，并将这些前沿技术应用于C端产品和企业客户服务中。

快手发布视频生成模型更新「可灵 1.6」

时间：12月19日
介绍：
https://mp.weixin.qq.com/s/JqBsTuqM9-QffHncWJCbWA

快手科技发布了其视频生成模型“可灵AI”的最新版本可灵1.6。这个版本在视频生成方面取得了显著进步，特别是在文本响应度、画面美感及运动合理性方面都有明显提升，使得画面更加稳定和生动。

可灵1.6模型在内部评测中，图生视频的整体效果比1.5模型提升了195%，同时支持标准和高品质模式，保持了与之前版本相同的灵感值消耗水平，实现了“加量不加价”。可灵1.6在物理规律真实感、人物运动表演以及语义理解方面都有巨大的飞跃。它现在能够更准确地处理切食物、倒茶等物理动作，人物表情和动作也更加自然。此外，模型对上传图片的理解能力也有所提高，能够更准确地响应提示词，生成与描述相匹配的视频内容。

Meta AI 发布开源大模型更新 Llama 3.3 70B

时间：12月19日
介绍：
https://ai.meta.com/blog/future-of-ai-built-with-llama/

Meta AI 发布了最新的开源大模型 Llama 3.3 70B，这是一个仅包含文本模型的版本，它在性能上与之前的Llama 3.1 405B相当，但服务成本大幅降低。

Llama 3.3 70B 在指令遵循、数学、推理等领域的表现超过了Llama 3.1 405B，而在语言、代码、长文本和多语种能力上也与405B版本相近。这一进步主要得益于后训练技术的最新进展，包括在线偏好优化和在线强化学习技术。Llama 3.3 70B的发布，进一步巩固了Meta在AI大模型领域的领先地位，并为更广泛的应用场景提供了更经济高效的解决方案。

阿里通义发布最强开源多模态推理模型 QVQ

时间：12月25日
介绍：
https://mp.weixin.qq.com/s/GbE27yQI2OP-ksHbph2-WQ

阿里云通义千问（Qwen）发布了业界首个开源多模态推理模型 QVQ-72B-Preview，这是一个在视觉理解和复杂问题解决能力上实现重大突破的模型。

QVQ 基于Qwen2-VL-72B构建，能够在数学、物理和科学等领域的复杂推理问题上展现出色的表现，尤其在需要复杂分析思维的领域表现突出。在MMMU评测中，QVQ取得了70.3的优异成绩，并且在多项数学相关基准测试中相比Qwen2-VL-72B-Instruct都有显著提升。

AI新势力

World Labs 公布首个AI成果「3D世界生成模型」

时间：12月2日
介绍：
https://www.worldlabs.ai/blog

World Labs，由“AI教母”李飞飞联合创立并担任CEO的AI初创公司，宣布了其首个重要成果——3D世界生成模型。这一系统能够根据单张图片生成一个3D世界，使用户能够以全新的方式探索和互动。该模型通过预测3D场景，提供了比传统2D内容生成工具更高的可控性和一致性，为电影、游戏、模拟器等数字媒体的制作方式带来革命性的变化。

该3D世界生成模型不仅能够根据用户提供的图片创建3D场景，还允许用户在浏览器中实时与这些场景互动，包括移动、查看和添加各种交互效果。这种技术的应用预示着生成式AI迈入了一个新的阶段，即空间智能，它将使得AI模型从2D平面提升到完整的3D世界，赋予它们更丰富的空间智能。

上海AI实验室开源多模态大模型「书生·万象2.5」

时间：12月5日
介绍：
https://mp.weixin.qq.com/s/YEz0OqeZ1jUZSUJGEBa-Qw

上海AI实验室宣布开源其最新的多模态大模型——书生·万象2.5（InternVL2.5）。这一升级版的模型在全量级开源多模态性能上取得了行业领先，参数覆盖从10亿到780亿的范围。书生·万象2.5在多模态长链推理方面取得了显著进步，在专家级多学科领域知识推理基准测试MMMU中取得了突破70%的成绩，仅次于OpenAI的o1模型。此外，该模型在跨学科推理、文档理解、多图像/视频理解、现实世界推理、多模态幻觉检测、视觉定位、多语言等能力方面均有显著提升，保持世界领先水平。

书生·万象2.5的开源，为学术研究和产业应用提供了一个性能更强、效率更高的多模态基座模型。该模型的成功开源，不仅减少了对训练数据的依赖，降低了扩展成本，而且在提升模型性能的同时，也推动了人工智能技术的透明度和可访问性，为开发者和研究者提供了一个高性能的开源替代方案。

OpenAI 正式发布 Sora 并启用 Sora.com

时间：12月9日
介绍：
https://openai.com/index/sora-is-here/

OpenAI 正式宣布其视频生成模型 Sora 结束研究预览阶段，并推出了Sora的独立网站sora.com。Sora Turbo 作为Sora的新版本，比之前的预览版速度有显著提升，现在作为独立产品向ChatGPT Plus和Pro用户提供服务。Sora用户可以在sora.com上生成高达1080p分辨率、最长20秒的视频，支持宽屏、竖屏或方形的视频比例。用户可以利用自己的资源进行内容扩展、混音和融合，或者完全基于文本生成新内容。

OpenAI为Sora开发了新的界面，包括一个故事板工具，允许用户精确指定每一帧的输入，使得使用文本、图像和视频提示Sora变得更加便捷。此外，Sora还包含了社区创造的内容，不断更新的特色和最新动态。

xAI 发布 Grok 文生图功能 Aurora

时间：12月9日
介绍：
https://x.ai/blog/grok-image-generation-release

xAI 公司发布了一款名为 Aurora 的新型文生图模型，用于增强其Grok产品的形象生成能力。Aurora 是一个自回归混合专家网络，通过训练能够预测交错的文本和图像数据中的下一个token。这个模型在互联网上数十亿的示例上进行了训练，使其对世界有了深刻的理解。Aurora在照片级渲染和精确遵循文本指令方面表现出色，并且除了文本外，它还支持多模态输入，能够从用户提供的图像中获取灵感或直接编辑它们。

Grok 的新功能现已在𝕏平台上对部分国家开放，并将在一周内对所有用户开放。Aurora 能够生成多个领域的高质量图像，包括真实世界的实体、文本、标志和逼真的人像，这些领域往往是其他图像生成模型的挑战所在。此外，Aurora还能够作为输入接受图像，为用户提供更大的创作控制和灵活性。

智源研究院开源无标注视频学习3D生成模型 See3D

时间：12月10日
介绍：
https://mp.weixin.qq.com/s/t2S2ZYR5p8o5APOd_rWkSw

智源研究院宣布推出 See3D，这是一款基于大规模无标注互联网视频学习的3D生成模型。See3D 采用了创新的视觉条件技术，与传统依赖相机参数的3D生成模型不同，它仅依赖视频中的视觉线索来生成可控相机方向和几何一致的多视角图像。这种方法不依赖昂贵的3D或相机标注，能够高效地从多样化、易获取的互联网视频中学习3D先验。

See3D 模型不仅支持零样本和开放世界的3D生成，还无需微调即可执行3D编辑、表面重建等任务，展现出在多种3D创作应用中的广泛适用性。该模型、代码和Demo均已开源，为3D研究社区提供了突破技术瓶颈的新思路，并有望减少对昂贵3D数据采集的依赖，同时缩小与现有闭源3D解决方案之间的差距。

阶跃星辰发布千亿参数端到端语音大模型 Step-1o

时间：12月13日
介绍：
https://mp.weixin.qq.com/s/oLWYZ16LF1VslMAD-EAoDQ

阶跃星辰发布了 Step-1o，这是一款具有里程碑意义的千亿参数端到端语音大模型，标志着国内在该领域的重大突破。Step-1o 模型采用了端到端的语音处理技术，与传统的级联方案相比，能够直接将输入的语音信息转化为文本再生成语音输出，避免了信息的损失和效率的降低，从而提升了语音模型的响应速度和智能水平。

Step-1o 模型具备高情商和智商，能够理解和模仿音色、韵律、方言等声音特征，并提供丰富的情感表达。它不仅能够提供专业建议，还能作为高情商的伴侣提供情绪价值。此外，Step-1o继承了阶跃星辰语言大模型的创作能力，能够实时创作并讲述生动的故事。该模型预计将广泛应用于新闻播报、聊天陪伴、有声读物、在线教育等多个领域，满足各行各业对语音交互技术的需求。

月之暗面 Kimi 发布视觉思考模型 k1

时间：12月16日
介绍：
https://mp.weixin.qq.com/s/8cip3dehL8OIfZSnbZ1ftQ

月之暗面旗下的Kimi智能助手发布了其最新视觉思考模型 k1，这是一款基于强化学习技术构建的先进AI模型。

k1 原生支持端到端图像理解和思维链技术，能够处理图像信息并进行深度推理，其能力不仅限于数学问题，还扩展到了物理、化学等更多基础科学领域。在多项基础科学学科的基准能力测试中，k1模型的表现超越了全球领先的模型，如OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet，显示出其在图像理解和科学推理方面的卓越能力。

无问芯穹开源端侧全模态理解小模型 Megrez-3B-Omni

时间：12月16日
介绍：
https://mp.weixin.qq.com/s/aWtZnw3nf4Fpx_xRGN-REw

无问芯穹宣布开源其端侧全模态理解小模型 Megrez-3B-Omni 及其纯语言模型版本Megrez-3B-Instruct。Megrez-3B-Omni 是一款专为端侧设备如手机和平板设计的模型，具备处理图片、音频、文本三种模态数据的能力，并在多个测评基准中取得了优异的性能。该模型拥有30亿参数，结构规整，推理速度最大可领先同精度模型300%，能够在保持高精度的同时显著降低计算成本和提升计算效率。

Megrez-3B-Omni 在图像理解、文本理解和语音理解方面均展现出色的表现，超越了尺寸更大的模型。此外，该模型还集成了WebSearch功能，能够智能判断何时需要调用外部工具进行网页搜索，辅助回答用户问题，克服小模型的幻觉问题和知识储备不足的局限。

百川发布全链路领域增强金融大模型 Baichuan4-Finance

时间：12月23日
介绍：
https://mp.weixin.qq.com/s/fhZfGQ3E0RBCCvNTuWeDhQ

百川智能发布了其全链路领域增强金融大模型 Baichuan4-Finance，该模型在高质量金融数据的基础上，通过行业首创的领域自约束训练方案，实现了金融能力和通用能力同步提升的效果。Baichuan4-Finance 在多个权威金融评测基准上表现卓越，其整体准确率领先GPT-4o近20%，登顶了中国人民大学财政金融学院发布的评测体系FLAME以及国内主流开源金融评测基准FinanceIQ的榜首，展现出在金融专业能力和场景应用能力方面的显著优势。

Baichuan4-Finance 不仅在理论上表现出色，在实际操作中也展现了强大的应用能力。通过全链路金融领域增强，Baichuan4-Finance既掌握了扎实的金融理论基础知识，又具备了丰富的多场景实践应用能力，为金融行业带来全方位的价值提升，包括效率提升、风控合规、客服、决策支持等。

智谱开源 GLM-PC 基座模型 CogAgent-9B

时间：12月26日
介绍：
https://mp.weixin.qq.com/s/Z9UoOVDVGJA5yudmVYbqPw

智谱AI近期提出了GLM-OS概念，并发布了AutoGLM和GLM-PC两款Agent产品。为了进一步推动大模型Agent生态的发展，智谱决定开源GLM-PC的基座模型 CogAgent-9B，供社区进行开发和研究。CogAgent-9B 是基于GLM-4V-9B训练而成的专用Agent任务模型，它能够仅通过屏幕截图作为输入，根据用户指定的任务和历史操作，预测下一步的GUI操作。这一模型的开源，将有助于促进相关技术的发展和应用。

CogAgent-9B 模型在多个方面实现了显著提升，包括GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等。它支持中英文双语的屏幕截图和语言交互，并且可以广泛应用于个人电脑、手机、车机设备等基于GUI交互的场景。

DeepSeek 开源最新MoE语言模型 DeepSeek-V3

时间：12月26日
介绍：
https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

深度求索（DeepSeek AI）发布了其最新的自研MoE（Mixture of Experts）模型 DeepSeek-V3，这是一个具有671B参数、激活37B的大型语言模型。DeepSeek-V3 在14.8万亿个token上进行了预训练，其性能在多项评测中超越了其他开源模型，如Qwen2.5-72B和Llama-3.1-405B，并在某些方面与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。模型在百科知识、长文本处理、代码编写、数学问题解决以及中文能力等方面表现出色，特别是在算法类代码场景和数学竞赛中表现突出。

DeepSeek-V3 的开源权重现已发布，支持FP8训练，并得到了SGLang、LMDeploy、TensorRT-LLM和MindIE等社区的支持，实现了原生FP8推理和BF16推理。此外，DeepSeek-V3还提供了从FP8到BF16的转换脚本，以方便社区适配和拓展应用场景。

理想汽车发布独立AI助手App「理想同学」

时间：12月27日
介绍：
https://mp.weixin.qq.com/s/X8OHvD6TFz-HzzPTL3ApIA

理想汽车推出了一款名为“理想同学”的独立AI助手App，这是一款基于 Mind GPT 大模型打造的智能助手，旨在将理想汽车的陪伴服务从车辆扩展到用户的智能手机上。理想同学App不仅知识渊博，能够回答各种问题，还特别擅长英语翻译和文本创作，成为用户学习和生活中的得力助手。此外，该App还具备不断成长的视觉感知能力，可以帮助用户识别汽车、动物和植物，实现边看边学。

理想同学App适合家庭中所有成员使用，无论是成年人还是孩子。对于成年人，它可以提供汽车、财经、科技等领域的专业解答和文本处理服务；对于孩子，它则像一扇探索世界的窗口，通过视觉感知能力帮助他们认识新事物。该App已于12月27日上线，用户可以在应用商店或理想汽车官网下载免费体验。

智源研究院发布异构统一通信库 FlagCX

时间：12月27日
介绍：
https://mp.weixin.qq.com/s/ekHnKXoxl9io3gOSVp_h1Q

智源研究院联合多家生态合作伙伴发布了名为 FlagCX 的异构统一通信库，这一开源项目旨在解决多元算力时代通信库面临的两大挑战：不同AI芯片的通信库差异导致的通用性和自适应性问题，以及跨不同芯片高效互联的难题。

FlagCX 通过提供一个统一的通信算子接口层，屏蔽底层不同实现细节，使得不同芯片之间能够高效通信，并在不同场景下实现大规模自适应通信优化，从而填补了多元算力开源软件栈中的重要空白。FlagCX 的设计遵循标准化、兼容性和自适应三个基本原则，支持“零开销”与“零成本”的架构设计，能够复用芯片厂商原生通信库，并提供异构通信能力。该通信库已在多个芯片上进行了性能测试，结果显示其跨芯片异构通信潜力，能够达到峰值带宽的90%以上。

爱诗科技上线极速视频生成模型 PixVerse V3.5

时间：12月30日
介绍：
https://mp.weixin.qq.com/s/J66AEIutu62d747HI_GU5g

爱诗科技（AIsphere）推出了其最新的极速视频生成模型 PixVerse V3.5，该模型在 Turbo 极速生成模式下能够实现平均10秒生成视频，甚至在最佳条件下最快可达5秒，极大提高了AI视频创作的效率。这一进步不仅体现在速度上，PixVerse V3.5在语义理解、运动稳定性和细节表现力等方面也保持了行业领先水平，为创作者提供了更高效、更高质量的视频生成体验。

PixVerse V3.5 模型的升级，不仅提升了视频生成的速度，还在动漫生成效果上取得了显著提升，能够直接通过文生视频描述特定风格，生成对应的动漫效果。此外，新版本还新增了首尾帧功能，激发创作灵感，允许用户上传两张图片并描述变化过程，从而生成流畅的过渡视频。

智谱上线深度推理模型 GLM-Zero-Preview

时间：12月31日
介绍：
https://mp.weixin.qq.com/s/jJ92dNeQ-Olfy_nMfj2e7A

智谱AI在2024年的最后一天发布了 GLM-Zero 预览版，这是其首个基于扩展强化学习技术训练的推理模型。

GLM-Zero-Preview 专注于增强AI的推理能力，尤其在数理逻辑、代码编写和复杂问题的深度推理方面表现出色。相较于基座模型，GLM-Zero-Preview在保持通用任务能力的同时，显著提升了专家任务的性能，其在AIME 2024、MATH500和LiveCodeBench等评测中的表现与OpenAI的o1-preview相当，展现了其在专业任务上的强劲能力。

会议&活动

AWS re:Invent 2024

时间：12月2~6日
介绍：
https://www.aboutamazon.com/news/aws/aws-reinvent-2024-keynote-live-news-updates

AWS re:Invent 2024 于12月2日至6日在美国拉斯维加斯举行，被誉为“云计算春晚”。此次大会的亮点包括亚马逊云科技发布了多项创新技术和产品，特别是在生成式AI领域的重大进展，进一步确立了亚马逊在AI和云计算领域的持续创新和领导地位。

AWS CEO Matt Garman 和其他高层领导介绍了新一代的基础模型 Amazon Nova 系列，包括多种文本和多模态模型，旨在提升AI应用的性能和性价比。大会中，AWS 还推出了新的AI训练芯片 Trainium2 和 Trainium3，增强了其云服务的计算能力。此外，Amazon Bedrock服务也进行了全面升级，增加了自动推理检查、多智能体协作和模型蒸馏等新功能，以帮助企业更高效地构建和管理生成式AI应用。与会的多家企业分享了如何利用AWS的技术实现业务创新，包括Apple和JPMorgan Chase等知名公司。

12 Days of OpenAI

时间：12月6~21日
介绍：
https://openai.com/12-days/

圣诞前夕，OpenAI 开启了为期12天的产品和最新AI能力集中展示分享。主要内容亮点概括如下：

Day 1: O1模型与ChatGPT Pro

推出了全新升级的O1模型，提升了智能水平和用户体验。

发布了高端订阅服务ChatGPT Pro，提供无限制访问O1模型、高级语音模式和高优先级服务。

Day 2: 强化微调（Reinforcement Fine-Tuning, RFT）技术

允许使用少量高质量数据对AI模型进行定制，使其在特定领域的复杂任务中表现出色。

Day 3: Sora视频生成工具

推出了AI视频生成工具Sora，能够根据文本描述、图像或视频输入生成视频内容。

Day 4: Canvas协作工具更新

Canvas迎来重大更新，向所有用户免费开放，并集成代码执行功能和定制GPT。

Day 5: ChatGPT与Apple设备的集成

ChatGPT在iPhone、iPad和Mac OS上的全面整合，包括Siri集成、写作工具和摄像头控制。

Day 6: 高级语音模式的新功能

ChatGPT高级语音模式中加入了实时视频和屏幕共享功能。

Day 7: Projects项目管理功能

整合聊天记录、文件和指令，提供集中的工作环境。

Day 8: 搜索功能更新

搜索功能优化，速度更快，移动端体验更佳，并与高级语音模式集成。

Day 9: 开发者专属更新

包括O1模型正式发布、实时API改进、偏好微调（Preference Fine-Tuning）等。

Day 10: 电话和WhatsApp接入ChatGPT

ChatGPT可通过电话和WhatsApp使用，降低AI使用门槛。

Day 11: ChatGPT桌面应用新功能

桌面应用功能增强，包括与本地应用的协作和风格匹配功能。

Day 12: O3模型发布预告

预告了两款新模型O3和O3 Mini，分别针对高性能推理和高效推理。

这些更新和发布展示了OpenAI在AI技术领域的创新和进步，涵盖了模型性能提升、新功能开发、用户体验优化等多个方面，体现了OpenAI推动AI技术发展和普及的决心。

火山引擎 FORCE 原动力大会

时间：12月18~19日
介绍：
https://mp.weixin.qq.com/s/5F_ecuNJgSkle_jhLL8Ffg

12月19日，火山引擎 FORCE 原动力大会开发者论坛在上海举行。大会上展示了其在大模型时代的最新进展和产品升级，主要包括：

产品升级与发布：火山引擎升级了豆包系列基础模型，并推出了视觉理解模型。重点介绍了HiAgent，这是一个帮助企业快速开发大模型应用的平台。
降低开发门槛：通过方舟应用实验室和扣子1.5平台，火山引擎提供了高代码SDK、企业级模板和低代码、可视化的应用开发环境，旨在简化大模型的使用和AI应用的构建。
AI应用开发工具：火山引擎推出了智能AI IDE豆包MarsCode，以提高编程效率，并强化了DataLeap开放平台的能力，以提升数据研发治理的效率。
市场表现与增长：火山引擎在中国大模型IaaS市场排名第二，其大模型领域的增长也推动了传统云计算服务的发展。豆包系列模型的使用量显著增长，显示了火山引擎在大模型应用方面的强劲动力。

这些更新和产品展示了火山引擎如何助力企业和开发者在AI时代高效创新，并在竞争激烈的云计算市场中占据有利位置。

理想AI Talk

时间：12月25~27日
完整版：
https://mp.weixin.qq.com/s/pg2Mg15ZF8jhoYBcxmTIJg

2024年12月，腾讯科技与理想汽车CEO李想进行了一场以AI为主题的对话，并连续三天进行视频直播。理想AI Talk 所分享的核心内容和亮点包括：

李想的AI愿景：理想汽车CEO李想明确表示，人工智能是公司未来的全部，他将人工智能视为“未来的全部”，并认为大模型的出现将使人类发生根本性改变。李想强调，理想汽车将从工业时代的交通工具进化为人工智能时代的空间机器人，他的目标是实现人工智能的“iPhone 4时刻”，让普通人也能轻松使用。
技术投入与产品迭代：李想透露，理想汽车在人工智能领域的研发投入巨大，公司一年超过100亿的研发投入中有接近一半投在了人工智能方面。理想汽车不仅在做智能驾驶，还有理想同学、智能商业和智能工业等AI产品。公司正在自研大模型，从基座模型开始建设，以实现技术创新和产品快速迭代。
智能驾驶的进展：理想汽车在智能驾驶方面取得了显著进展，宣布行业首创的全新一代双系统智驾方案端到端+VLM全量推送，并计划在2025年实现L3级别的自动驾驶。李想和智能驾驶研发副总裁郎咸朋讨论了智能驾驶的技术细节和未来规划，包括对激光雷达的使用和端到端技术的应用。
人工智能企业的转型：李想强调，理想汽车将成为一家人工智能企业，不仅仅是汽车的智能化，而是人工智能的汽车化，推动人工智能普惠到每一个家庭。他提到，理想汽车的LOGO从未包含“汽车”二字，显示了公司对人工智能的重视。
竞争与成长：李想对汽车行业的竞争和企业管理有新的认识，他认为竞争是世界的精彩和丰富之处，并表示只要所有的中国企业不放弃，一切皆有可能。他将成长视为自己唯一的欲望，并认为只有通过不断的学习和成长，理想汽车才能实现其成为全球领先的人工智能企业的目标。

通过与高层的对话，理想汽车展示了公司在人工智能技术发展、智能驾驶、企业战略等方面的深入思考和前瞻布局，旨在向公众传达理想汽车如何利用AI技术推动行业创新和提升用户体验，同时也强化了理想汽车作为科技创新引领者的品牌形象。

知识星球，新年优惠券重磅来来袭！，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！