AI 周刊 #002 - 英伟达开源超强模型 Nemotron-70B

科技   2024-10-21 11:30   浙江  

本期看点:英伟达开源超强模型 Nemotron-70B;OpenAI 推出新语音 API;微软停止向中国个人开发者提供 Azure Open API 服务;Meta AI 推出跨模态语言模型 Spirit LM;零一万物推出超便宜新模型 Yi-Lightning。

编辑:TimLi、QC-L

🔥 本周热点

英伟达开源超强模型 Nemotron-70B,超越 GPT-4o 和 Claude 3.5 Sonnet - 英伟达开源了 Nemotron-70B 模型,在多个基准测试中表现优于 GPT-4o 和 Claude 3.5 Sonnet。

长按识别二维码查看原文   

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward-HF

OpenAI 推出 GPT-4O-Audio-Preview - OpenAI 推出了 GPT-4O-Audio-Preview,允许用户输入音频内容和文字作为 Prompt,并能分析情绪,然后返回音频和文字。(输入输出至少包含一种音频)

长按识别二维码查看原文   

https://platform.openai.com/docs/guides/audio/quickstart

Anthropic 开发新型 AI 模型安全评估方法 - Anthropic 公司开发了四种新型评估方法,用于测试 AI 模型的潜在破坏能力,包括人类决策破坏、代码破坏、能力隐藏和监督破坏。这些方法旨在提前发现 AI 模型的危险能力,为开发更安全的 AI 系统提供参考。

长按识别二维码查看原文   

https://www.anthropic.com/research/sabotage-evaluations

Meta 的人工智能负责人表示,世界模型是实现"人类水平人工智能"的关键——但这可能需要 10 年的时间 - 他指出当前 AI 系统缺乏真正的理解和推理能力,需要建立三维世界模型来实现更复杂任务。世界模型可感知环境并预测行动结果,但实现仍面临诸多挑战。

长按识别二维码查看原文   

https://techcrunch.com/2024/10/16/metas-ai-chief-says-world-models-are-key-to-human-level-ai-but-it-might-be-10-years-out/

微软将停止向中国个人开发者提供 Azure Open API 服务 - 微软宣布从 10 月 21 日起,将终止向中国大陆个人开发者提供 Azure OpenAI 服务,但企业客户仍可继续使用。此前 OpenAI 已于 7 月初停止在中国大陆提供 API 服务,微软的 Azure OpenAI 服务曾成为当地用户访问该 AI 模型的唯一合规渠道。

长按识别二维码查看原文   

https://www.yicaiglobal.com/news/microsoft-to-stop-azure-openai-service-for-individual-developers-in-china

OpenAI 推出 Windows 桌面版,部分用户可以提前体验 - 时隔 Mac 版五个月之后,OpenAI 推出了 Windows 桌面版,Plus 用户可以提前体验,计划年底对全部用户开放。

长按识别二维码查看原文   

https://x.com/OpenAI/status/1846957067204166113

Google 发布 NotebookLM 正式版及商业版预告 - NotebookLM 正式版发布,新增音频概述自定义功能,允许用户调整 AI 主持人的重点和专业水平。同时预告了面向企业的 NotebookLM Business 版本,目前开放试点申请。

长按识别二维码查看原文   

https://blog.google/technology/ai/notebooklm-update-october-2024/

Adobe 推出 Firefly 视频生成模型测试版 - 新模型支持文本到视频和图像到视频生成,可用于创建 B-roll 素材、视觉效果和动画等,旨在提高创作效率。

长按识别二维码查看原文   

https://blog.adobe.com/en/publish/2024/10/14/generate-video-beta-on-firefly-web-app

联想和 NVIDIA 深度合作继续深耕混合 AI,推出 AI Now - 联想在全球科技创新大会上发布了新一代混合 AI 产品组合,包括 Lenovo AI Now 本地 AI 代理等。联想还展示了新一代 Neptune 液冷技术和多个 AI for Good 概念验证项目,旨在为各行各业和个人用户提供更智能的 AI 解决方案。

长按识别二维码查看原文   

https://news.lenovo.com/pressroom/press-releases/comprehensive-hybrid-ai-portfolio-smarter-ai-for-all-tech-world-24/

Meta AI 推出跨模态语言模型 Spirit LM - 新模型可自由混合文本和语音,支持语音识别、文本转语音等任务,具有文本模型的语义能力和语音模型的表现力。

长按识别二维码查看原文   

https://speechbot.github.io/spiritlm/

零一万物推出新模型 Yi-Lightning - 一百万 token 只要 0.99 元。

长按识别二维码查看原文   

https://platform.lingyiwanwu.com/

📒 教程与分享


5 天学习 RAG 系统路线图:快速掌握检索增强生成技术 - 这是一篇教程文章,提供了 5 天内学习检索增强生成(RAG)系统的详细路线图。包括 RAG 基础知识、检索系统实现、生成模型微调、RAG 系统搭建和优化等内容,适合想快速入门 RAG 技术的开发者。

长按识别二维码查看原文   

https://www.analyticsvidhya.com/blog/2024/09/5-days-roadmap-to-learn-rag/

OpenAI 首席执行官奥特曼在哈佛的访谈

长按识别二维码查看原文   

https://www.youtube.com/watch?v=FVRHTWWEIz4

使用 Amazon Bedrock 的无服务器代理 AI 工作流 - 这是一门新的短期课程,由 AWS 开发者倡导者 Mike Chambers 讲授。课程内容包括:使用 Amazon Bedrock 构建和部署无服务器代理应用、管理代理行为、设计安全代理、构建客户服务机器人等。适合具有基本 Python 知识的人群,学完可构建 AI 代理处理客户支持场景。

长按识别二维码查看原文   

https://www.deeplearning.ai/short-courses/serverless-agentic-workflows-with-amazon-bedrock/

使用 LangGraph 构建生产级 AI 代理:一个真实用例 - 文章介绍了如何使用 LangGraph 库构建生产级 AI 代理系统,展示了一个旅行规划应用的开发过程。

长按识别二维码查看原文   

https://medium.com/cyberark-engineering/building-production-ready-ai-agents-with-langgraph-a-real-life-use-case-7bda34c7f4e4

缩小巨人:生产环境中的高维向量效率 - 文章介绍了向量量化技术在生产环境中的应用,通过多种方法大幅减少高维向量的存储空间和计算复杂度,同时保持较高的检索精度。

长按识别二维码查看原文   

https://ai.gopubby.com/shrinking-the-giant-high-dimensional-vector-efficiency-in-production-26408df5b431

宝玉老师的【如何写好提示词】课堂

长按识别二维码查看原文   

https://x.com/dotey/status/1846446756503994793

利用 NotebookLM 提取 Huberman 播客知识 - 作者介绍了如何使用 Google 的 NotebookLM 工具从 Andrew Huberman 的播客中快速提取和总结知识。

长按识别二维码查看原文   

https://ai.gopubby.com/what-would-hubi-say-ca7595b1e5ed

🛠 模型与工具

Mistral AI 发布 Ministral-8B-Instruct-2410 语言模型 - 新模型在同等规模中表现优异,支持 128k 上下文窗口和函数调用,适用于本地和边缘计算场景。

长按识别二维码查看原文   

https://huggingface.co/mistralai/Ministral-8B-Instruct-2410

F5-TTS 是由上海交通大学开源的一款高性能文本到语音(TTS)系统 - 新模型通过流匹配实现流畅自然的语音合成,支持多语言、多说话人,可用于语音编辑等任务。

长按识别二维码查看原文   

https://github.com/SWivid/F5-TTS

阿里国际推出最强翻译模型 - 阿里国际根据他们在实际国际业务中积累的丰富数据,训练了最强翻译模型,支持 100 多种语言的翻译,并已经投入生产。

长按识别二维码查看原文   

https://aidc-ai.com/page/translation.htm#tryout

LangChain 发布开源文档协作工具 Open Canvas - 基于 LangGraph 构建,支持多人协作编辑文档,内置反思代理和记忆功能,可从现有文档开始编辑,代码开源。

长按识别二维码查看原文   

https://github.com/langchain-ai/open-canvas

Hallo2:长时间高分辨率音频驱动的人像图像动画 - 复旦大学视觉生成实验室开发的 Hallo2 模型可根据长时间音频生成高分辨率人像动画视频,支持 1 小时音频和 4K 分辨率,提供预训练模型和代码,可用于虚拟主播等领域。

长按识别二维码查看原文   

https://github.com/fudan-generative-vision/hallo2

微软 BitNet.cpp:1-bit LLM 的框架 - 微软发布了 BitNet.cpp 框架,用于运行 1-bit 大语言模型。这种模型将参数压缩到 1 比特,大大减少了内存需求,使大型模型可以在普通设备上运行。

长按识别二维码查看原文   

https://medium.com/data-science-in-your-pocket/microsoft-bitnet-cpp-framework-for-1-bit-llms-8a7216fe28cb

Swarm - OpenAI 出品的一个探索人体工程学、轻量级多智能体编排的教育框架。 - 这是 OpenAI 开源的一个实验性教育框架,用于探索人体工程学和轻量级的多智能体编排。它提供了简单的 Agent 和 handoff 原语,可以构建复杂的智能体网络,适合开发者学习和实验多智能体系统的设计模式。

长按识别二维码查看原文   

https://github.com/openai/swarm

Kotaemon:开源、可定制的 RAG 聊天界面 - Kotaemon 是一个开源的文档问答 RAG 界面,面向终端用户和开发者。它提供了简洁的用户界面,支持多种 LLM 和嵌入模型,具有混合 RAG 管道、多模态问答、高级引用等功能,可通过 Docker 或 Python 环境部署。

长按识别二维码查看原文   

https://github.com/Cinnamon/kotaemon

AgentStack:快速构建 AI 代理项目的命令行工具 - 这是一个开源项目,提供命令行工具,用于快速创建和开发 AI 代理项目。支持多种代理框架,无需复杂配置,可轻松集成各种工具,适合开发者快速启动 AI 代理项目。

长按识别二维码查看原文   

https://github.com/AgentOps-AI/AgentStack

OpenAI 实时语音 API 的 TypeScript 客户端发布 - 该客户端支持 Node.js 和浏览器环境,提供完全类型化的事件处理,修复了多个 bug,并包含示例代码和中继服务器。

长按识别二维码查看原文   

https://github.com/transitive-bullshit/openai-realtime-api

Podcastfy.ai:多模态内容转播客的 AI 工具 - Podcastfy.ai 是一个开源 Python 包,使用生成式 AI 将多模态内容(文本、图像)转换为引人入胜的多语言音频对话。它可以处理网站、PDF、YouTube 视频和图像等输入内容。

长按识别二维码查看原文   

https://github.com/souzatharsis/podcastfy

阿里妈妈发布 FLUX.1-Turbo-Alpha 模型 - 基于 FLUX.1-dev 的 8 步蒸馏版模型,性能提升显著,适用于创意生成等任务,支持中英双语。

长按识别二维码查看原文   

https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha

🙋🏻‍♀️ 关注我们


印记中文
深入挖掘国外前端新领域,为中国 Web 前端开发人员提供优质文档!
 最新文章