本期看点:英伟达开源超强模型 Nemotron-70B;OpenAI 推出新语音 API;微软停止向中国个人开发者提供 Azure Open API 服务;Meta AI 推出跨模态语言模型 Spirit LM;零一万物推出超便宜新模型 Yi-Lightning。
编辑:TimLi、QC-L
🔥 本周热点
英伟达开源超强模型 Nemotron-70B,超越 GPT-4o 和 Claude 3.5 Sonnet - 英伟达开源了 Nemotron-70B 模型,在多个基准测试中表现优于 GPT-4o 和 Claude 3.5 Sonnet。
OpenAI 推出 GPT-4O-Audio-Preview - OpenAI 推出了 GPT-4O-Audio-Preview,允许用户输入音频内容和文字作为 Prompt,并能分析情绪,然后返回音频和文字。(输入输出至少包含一种音频)
Anthropic 开发新型 AI 模型安全评估方法 - Anthropic 公司开发了四种新型评估方法,用于测试 AI 模型的潜在破坏能力,包括人类决策破坏、代码破坏、能力隐藏和监督破坏。这些方法旨在提前发现 AI 模型的危险能力,为开发更安全的 AI 系统提供参考。
Meta 的人工智能负责人表示,世界模型是实现"人类水平人工智能"的关键——但这可能需要 10 年的时间 - 他指出当前 AI 系统缺乏真正的理解和推理能力,需要建立三维世界模型来实现更复杂任务。世界模型可感知环境并预测行动结果,但实现仍面临诸多挑战。
微软将停止向中国个人开发者提供 Azure Open API 服务 - 微软宣布从 10 月 21 日起,将终止向中国大陆个人开发者提供 Azure OpenAI 服务,但企业客户仍可继续使用。此前 OpenAI 已于 7 月初停止在中国大陆提供 API 服务,微软的 Azure OpenAI 服务曾成为当地用户访问该 AI 模型的唯一合规渠道。
OpenAI 推出 Windows 桌面版,部分用户可以提前体验 - 时隔 Mac 版五个月之后,OpenAI 推出了 Windows 桌面版,Plus 用户可以提前体验,计划年底对全部用户开放。
Google 发布 NotebookLM 正式版及商业版预告 - NotebookLM 正式版发布,新增音频概述自定义功能,允许用户调整 AI 主持人的重点和专业水平。同时预告了面向企业的 NotebookLM Business 版本,目前开放试点申请。
Adobe 推出 Firefly 视频生成模型测试版 - 新模型支持文本到视频和图像到视频生成,可用于创建 B-roll 素材、视觉效果和动画等,旨在提高创作效率。
联想和 NVIDIA 深度合作继续深耕混合 AI,推出 AI Now - 联想在全球科技创新大会上发布了新一代混合 AI 产品组合,包括 Lenovo AI Now 本地 AI 代理等。联想还展示了新一代 Neptune 液冷技术和多个 AI for Good 概念验证项目,旨在为各行各业和个人用户提供更智能的 AI 解决方案。
Meta AI 推出跨模态语言模型 Spirit LM - 新模型可自由混合文本和语音,支持语音识别、文本转语音等任务,具有文本模型的语义能力和语音模型的表现力。
零一万物推出新模型 Yi-Lightning - 一百万 token 只要 0.99 元。
📒 教程与分享
5 天学习 RAG 系统路线图:快速掌握检索增强生成技术 - 这是一篇教程文章,提供了 5 天内学习检索增强生成(RAG)系统的详细路线图。包括 RAG 基础知识、检索系统实现、生成模型微调、RAG 系统搭建和优化等内容,适合想快速入门 RAG 技术的开发者。
OpenAI 首席执行官奥特曼在哈佛的访谈
使用 Amazon Bedrock 的无服务器代理 AI 工作流 - 这是一门新的短期课程,由 AWS 开发者倡导者 Mike Chambers 讲授。课程内容包括:使用 Amazon Bedrock 构建和部署无服务器代理应用、管理代理行为、设计安全代理、构建客户服务机器人等。适合具有基本 Python 知识的人群,学完可构建 AI 代理处理客户支持场景。
使用 LangGraph 构建生产级 AI 代理:一个真实用例 - 文章介绍了如何使用 LangGraph 库构建生产级 AI 代理系统,展示了一个旅行规划应用的开发过程。
缩小巨人:生产环境中的高维向量效率 - 文章介绍了向量量化技术在生产环境中的应用,通过多种方法大幅减少高维向量的存储空间和计算复杂度,同时保持较高的检索精度。
宝玉老师的【如何写好提示词】课堂
利用 NotebookLM 提取 Huberman 播客知识 - 作者介绍了如何使用 Google 的 NotebookLM 工具从 Andrew Huberman 的播客中快速提取和总结知识。
🛠 模型与工具
Mistral AI 发布 Ministral-8B-Instruct-2410 语言模型 - 新模型在同等规模中表现优异,支持 128k 上下文窗口和函数调用,适用于本地和边缘计算场景。
F5-TTS 是由上海交通大学开源的一款高性能文本到语音(TTS)系统 - 新模型通过流匹配实现流畅自然的语音合成,支持多语言、多说话人,可用于语音编辑等任务。
阿里国际推出最强翻译模型 - 阿里国际根据他们在实际国际业务中积累的丰富数据,训练了最强翻译模型,支持 100 多种语言的翻译,并已经投入生产。
LangChain 发布开源文档协作工具 Open Canvas - 基于 LangGraph 构建,支持多人协作编辑文档,内置反思代理和记忆功能,可从现有文档开始编辑,代码开源。
Hallo2:长时间高分辨率音频驱动的人像图像动画 - 复旦大学视觉生成实验室开发的 Hallo2 模型可根据长时间音频生成高分辨率人像动画视频,支持 1 小时音频和 4K 分辨率,提供预训练模型和代码,可用于虚拟主播等领域。
微软 BitNet.cpp:1-bit LLM 的框架 - 微软发布了 BitNet.cpp 框架,用于运行 1-bit 大语言模型。这种模型将参数压缩到 1 比特,大大减少了内存需求,使大型模型可以在普通设备上运行。
Swarm - OpenAI 出品的一个探索人体工程学、轻量级多智能体编排的教育框架。 - 这是 OpenAI 开源的一个实验性教育框架,用于探索人体工程学和轻量级的多智能体编排。它提供了简单的 Agent 和 handoff 原语,可以构建复杂的智能体网络,适合开发者学习和实验多智能体系统的设计模式。
Kotaemon:开源、可定制的 RAG 聊天界面 - Kotaemon 是一个开源的文档问答 RAG 界面,面向终端用户和开发者。它提供了简洁的用户界面,支持多种 LLM 和嵌入模型,具有混合 RAG 管道、多模态问答、高级引用等功能,可通过 Docker 或 Python 环境部署。
AgentStack:快速构建 AI 代理项目的命令行工具 - 这是一个开源项目,提供命令行工具,用于快速创建和开发 AI 代理项目。支持多种代理框架,无需复杂配置,可轻松集成各种工具,适合开发者快速启动 AI 代理项目。
OpenAI 实时语音 API 的 TypeScript 客户端发布 - 该客户端支持 Node.js 和浏览器环境,提供完全类型化的事件处理,修复了多个 bug,并包含示例代码和中继服务器。
Podcastfy.ai:多模态内容转播客的 AI 工具 - Podcastfy.ai 是一个开源 Python 包,使用生成式 AI 将多模态内容(文本、图像)转换为引人入胜的多语言音频对话。它可以处理网站、PDF、YouTube 视频和图像等输入内容。
阿里妈妈发布 FLUX.1-Turbo-Alpha 模型 - 基于 FLUX.1-dev 的 8 步蒸馏版模型,性能提升显著,适用于创意生成等任务,支持中英双语。
🙋🏻♀️ 关注我们