10月盘点:AI 行业大事记

2024-10-31 14:28   广东  

大聪明:

本篇内容,由南乔老师创作,由「带带弟弟排版器」无痛排版

9月盘点:9月:AI 圈的乌龙、趣事与新闻

 

 

🧭 时光机

 

9 月 27 日 

  • Reecho 睿声 ● 三只羊录音事件涉及 AI 公司出面回应

9 月 28 日 

  • TeleAI ● 正式开源 TeleChat2-115B

 

10 月 1 日 

  • 快手 ● 可灵 AI 全面开放 API

  • OpenAI DevDay

10 月 2 日 

  • Black Forest Labs ● 发布 FLUX1.1 [pro]

  • 苹果 ● 推出多模态大模型 MM1.5

10 月 3 日 

  • OpenAI ● 发布 ChatGPT Canvas

 

10 月 8 日 

  • 2024 年诺贝尔物理学奖

10 月 9 日 

  • 2024 年诺贝尔化学奖

 

10 月 10 日 

  • 字节 ● 发布首款 AI 智能体耳机 Ola Friend

  • Vivo ● 增加蓝心端侧大模型 3B

  • 谷歌 ● 图像生成模型 Imagen 3 开放使用

  • 智源 ● BGE 登顶 Hugging Face 月榜

  • State of AI 2024 报告发布

 

10 月 11 日 

  • 智谱 ● GLM-4-Flash 与「沉浸式翻译」合作

  • 北大&北邮&快手 ● 👑开源高清视频生成模型 Pyramid Flow

 

10 月 12 日 

  • OpenAI ● 👑开源多智能体协作框架 Swarm

  • 深势科技 ● 完成数亿元人民币新一轮融资

  • 苹果 ● 质疑当前 LLM 缺乏真正的逻辑推理能力

 

10 月 14 日 

  • 智谱 ● 👑开源文生图模型 CogView3-Plus-3B

  • Adobe ● 推出 AI 旋转工具 Project Turntable

  • 新华社发布《人工智能时代新闻媒体的责任与使命》

  • OpenAI 起诉 Open AI

 

10 月 15 日 

  • 上海交大 ● 👑开源 F5-TTS

  • 联想创新科技大会 2024

 

10 月 16 日 

  • 英伟达 ● 👑开源 Llama-3.1-Nemotron-70B-Instruct

  • Suno ● 将视频和图片生成音乐

 

10 月 17 日 

  • OPPO ● 小布助手「一键问屏」功能

  • 扣子 ● 上线 AI 最佳实践模板

  • Mistral AI ● 发布端侧模型 Ministral 3B/8B

  • 字节 ● 实习生田某某破坏模型训练事件

 

10 月 18 日 

  • OpenAI ● 推出 Windows 版 ChatGPT

  • LiblibAI ● 开放全新生图 API

  • 上海推出 AI 百亿基金规划

 

10 月 21 日 

  • WSJ 和 NYT 正式起诉 Perplexity

  • 智源 ● 发布原生多模态世界模型 Emu3

  • 昆仑万维&北大 ● 提出通用框架 MoE++

 

10 月 22 日 

  • Gartner 发布 2025 年十大战略技术趋势

  • DeepSeek ● 👑开源多模态 LLM 框架 Janus

  • 司南 ● 👑开源大模型能力评估模型 CompassJudger

  • Anthropic ● 发布新功能 computer use

  • Anthropic ● 发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet

  • Stability AI ● 发布 Stable Diffusion 3.5

  • x.AI ● 正式推出 API

  • ComfyUI V1 官方桌面版开放内测

  • 华为发布纯血操作系统鸿蒙 OS NEXT

 

10 月 23 日 

  • Jina AI ● 推出高性能分类器 Classifier API

  • OpenAI ● 发布图像生成模型 sCM

  • Midjourney ● 上线外部图片编辑器

  • Runway ● 发布动画视频功能 Act-One

  • Ideogram ● 推出 AI 画板工具 Canvas

  • Genmo ● 👑开源视频生成模型 Mochi 1

  • 荣耀发布操作系统 MagicOS 9.0

  • 美国 14 岁少年与 C.AI 聊天后离世

  • 新华社发文表示警惕「AI 污染」乱象

 

10 月 24 日 

  • 港中文&趣丸 ● 推出 TTS 模型 MaskGCT

  • 科大讯飞 ● 发布讯飞星火 4.0 Turbo

  • 阿里 ● 通义代码模式开始内测

  • Anthropic Claude ● 新增数据分析功能

  • 北京市大中小学推广 AI 学伴和 AI 导学应用

  • 稚晖君👑开源「灵犀 X1」全套资料

  • OpenAI ● 高管 Miles Brundage 离职

 

10 月 25 日 

  • 智谱 ● 👑开源端到端语音大模型 GLM-4-Voice

  • 智谱 ● 发布 AutoGLM

  • 阶跃星辰 ● 视频理解模型 step-1.5v-turbo 上线开放平台

  • Notion ● 发布多项新功能,尤其是 Notion Email

  • arXiv 论文页面增加 Hugging Face 按钮

 

10 月 26 日 

  • 商汤科技被爆大裁员

  • Meta ● 发布并👑开源 NotebookLlama

 

10 月 28 日 

  • Apple Intelligence 正式开放 (目前仅对美国)

  • 国际开源组织与 Meta 争吵「LLM 开源」的定义

  • Arc 浏览器进入维护状态,公司明年发 AI 新品

 

10 月 29 日 

  • 爱诗科技 ● 发布视频生成模型 PixVerse V3

  • 智源 ● 推出视觉生成模型 OmniGen

 

10 月 30 日 

  • GitHub ● 宣布接入 Claude 和 Gemini

 

10 月 31 日 

  • Recraft AI ● 文生图模型 Red_Panda 霸榜

 

💎 本月出圈应用

 

歌词爆改机 @阶跃星辰繁星计划 

  • 把一首歌曲的歌词,爆改成想要的版本,生成专属音乐,而且 UI 绝美

  • 微信小程序 → 玩法

 

妙刷 @美团●光年之外 

  • AI 创意特效工具,主题丰富且有趣

  • 微信小程序 → 玩法

 

AI 搜索 @大聪明 

  • 飞书多为表格,支持「批量搜」等功能

  • 说明

 

有挂 @海玮 

  • 用自然语言对网页编程,实现各种操作

  • 浏览器插件 → 玩法

  • 安装向导 → https://yiu45q2746h.feishu.cn/docx/UM5Idb3AVo5cQXxgu09cTCAOnye

 

BiLin @Owen Young 

  • 把输入文字自动翻译成多种语言后进行搜索 (沉浸式翻译团队的新产品)

  • 网页应用 → https://bilin.ai 🔮

 

Jenova @Boris 

  • AI Youtube 搜索和总结,并支持播放 Youtube 视频,突然走红

  • 网页应用 → https://www.jenova.ai 🔮

 

302.ai 

  • 汇集全球顶级品牌的 AI 超市,用「国内版 Poe」完全不足以概括它的全面和强大

  • 网页应用 → https://302.ai

  • 开源了 AI 播客生成器、AI 视频生成器、AI 网页生成器等 30+ 生产级应用

  • GitHub → https://github.com/302ai

 

陌生人闹钟 @赵纯想 

  • 每天,一个随机陌生人叫你起床 (胃之书作者新作品)

  • 移动端应用 → https://strangerbell.com

 

ima.copilot @腾讯 

  • AI 智能工作台,有搜索、知识库、笔记三大功能,主打会思考的知识库

  • 桌面应用 → https://ima.qq.com

 


 

🔍 本月趋势洞察

 

AGI 正在迎来新范式,RL 是 LLM 的秘密武器

越来越多行业大佬发声,表示当前的 LLM 范式不能带领人类抵达 AGI,未来还需要完成几次重要的技术创新。 

 

当然,各家提出的演进范式不止一种。 

目前,获得较为一致认可的是强化学习 (Reinforcement learning) 方向。 

 

如果你对 RL、self-play 等研究方向感兴趣,非常推荐继续阅读以下几篇文章 ↓↓↓ 

 

 

头部研究团队开始发力原生多模态模型,统一是大势所趋

原生多模态大模型,开始更多走进公众视野。 

 

简单说就是,采用一个「大一统的模型」去解决所有模态的生成和理解问题,能够做到文本、图像、视频等多模态的输入和输出。用一个模型做所有事情。 

智源 Emu3 就把所有模态统一到「预测下一个 token」的技术范式上。 

 

关于 Emu3 的原理与演进,下面这篇访谈解释得更细致和明白 (就是说人话😂) ↓↓↓ 

通义千问技术负责人 林俊旸 (Junyang Lin) 也提到,下一阶段的的目标之一就是统一模型,即将多模态和任务统一到一个模型中 ↓↓↓ 

  • 𝕏@JustinLin610 → https://x.com/JustinLin610/status/1849532069602590802

 

 

端侧模型的浪潮奔涌而至,或许先在手机领域爆发

端侧大模型和产品的发布节奏,突然加快。 

  • 比如 vivoMistral AI 等公司先后发布端侧模型,字节 发布 AI 智能体耳机 Ola Friend,荣耀 发布 MagicOS 9.0, Claude 推出 computer use 功能,OPPO 宣布实现全球首次 MoE 在端侧的落地,智谱 发布 AutoGLM 工具,苹果 Apple Intelligence 开放使用…

 

在手机侧,原生 AI OS 是未来的重点方向,有望成为新的交互入口。 

也就是说,端侧模型除了生成内容,还可以调用手机上的各类应用程序,让用户更方便地完成各类操作。 

 

端侧模型指在终端设备上运行的大型预训练模型。如果你想了解更多相关知识,推荐 面壁智能 CEO@李大海 的几次访谈,内容都非常不错 ↓↓↓ 

 

 

Claude Artifacts 交互模式已经被广泛认可,国内外各大厂商纷纷跟进

Claude Artifacts 于 2024 年 6 月首次推出、8 月全面推广,目前已经成为 Claude 竞争优势之一。 

Artifacts 也被用户们玩出了花,除了最常见的做游戏写代码生成指定格式文本,国内最出圈的应该就是李继刚的 Prompt。 

 

各大模型厂商和产品陆续跟进。 

  • DeepSeek 首先公开致敬,OpenAI 发布 ChatGPT Canvas 跟上节奏,最近通义代码模式也开始内测;

  • 此外,国内外 AI 应用反应也很快,比如 302.aiV0PoeMonica 等都很快更新同类功能并服务用户。

 

上面提到的这几款 AI 产品,感兴趣可以体验一下: 

  • 302.ai → https://302.ai

  • V0 → https://v0.dev

  • Poe → https://poe.com

  • Monica → https://monica.im

 

 

Computer use 和 AutoGLM 先后刷屏,用户实测遇到最大的问题是:又慢又不准

这里要点名表扬 Anthropic,非常坦诚。 

发布 computer use 时,官网文章里就明确写道,最先进的 Claude 模型操作成功率也只有 14.9%,距离人类平均水平的 70%-75% 还有很大距离。 

  • 官网文章 → https://www.anthropic.com/news/3-5-models-and-computer-use

  • computer use → https://www.anthropic.com/news/developing-computer-use

 

原文: 

On one evaluation created to test developers’ attempts to have models use computers, OSWorld, Claude currently gets 14.9%. That’s nowhere near human-level skill (which is generally 70-75%), but it’s far higher than the 7.7% obtained by the next-best AI model in the same category. 

 

 

NotebookLM 未来会成为 All-In-One 多模态内容的重组器,语音产品即将爆发

NotebookLM 是真的火透了。 

先是被 Andrej Karpathy 发帖推荐,又被 Sam Altman 在 OpenAI DevDay 上点名表扬,国内外各种测评和衍生类产品也源源不断冒出来。 

 

NotebookLM 团队的访谈,近期也很出圈。 

产品负责人 Raiza Martin 认为:语音输出可以改变人们接受信息的方式,使其更生动有趣。她希望找到一种方法,将这种新的交互方式以一种轻松、有趣的方式呈现给用户。 

 

如果你想了解更多,推荐阅读以下两篇长文↓↓↓ 

 

 

State of AI Report 2024 报告,对未来 12 个月的 10 大预测

State of AI Report 报告每年 10 月份发布,最后是对未来 12 个月的预测,准确率一般来说还不错。 

 

今年的 10 条预测如下,让我们拭目以待: 

  1. 某主权国家将向一家美国大型 AI 实验室投资超 100 亿美元,引发国家安全审查。 

  2. 一款完全由无编码能力的人独立创建的应用或网站将会走红,跻身 App Store 前 100 名。 

  3. 前沿实验室在数据收集实践上做出重大调整,源于一些相关案例进入审判阶段。 

  4. 欧洲早期的《AI 法案》实施力度比预期温和,因立法者担心该法案过于严苛。

  5. 开源替代方案在多项推理基准测试中超越 OpenAI o1。

  6. 竞争者未能对 NVIDIA 的市场地位造成实质性影响。

  7. 由于产品与市场需求不匹配,对类人机器人投资的热度将逐渐下降。 

  8. Apple 在设备端 AI 研究的强劲成果将加速设备端 AI 的发展势头。

  9. 由 AI 科学家生成的研究论文将在重要机器学习会议或研讨会上获得接收。

  10. 基于与生成式 AI 元素互动的电子游戏将取得爆发性成功。

 

以上信息整理来自 @Renee 创业随笔,推荐你看完她的整个系列笔记 ↓ ↓ ↓ 

 


 

🧭 一句话讲清一件大事

 

9 月 27 日

三只羊录音事件涉及 AI 公司出面回应

三只羊 AI 录音事件涉及到的 AI 语音产品公司出面回应,梳理了技术原理,解释了来龙去脉。 

 

 

 

9 月 28 日

TeleAI 正式开源 TeleChat2-115B

完成首个全国产化万卡万参大模型训练,并正式开源 TeleChat2-115B  

 

 

10 月 1 日

快手可灵 AI 全面开放 API

快手旗下可灵 AI (Kling AI) 新增对口型功能,全面开放 API,并支持创意圈发布作品。 

 

OpenAI DevDay

公布五项重大创新:实时 API、提示词缓存、模型蒸馏、视觉微调、新广场玩法。 

 

 

10 月 2 日

Black Forest Labs 发布 FLUX1.1 [pro]

黑森林团队 (Black Forest Labs) 发布 FLUX1.1 [pro],是 FLUX 当前最新、最强大的文生图模型  

 

苹果推出多模态大模型 MM1.5

苹果推出升级版多模态大模型 MM1.5,显著增强了文本密集型图像理解、视觉指代和定位、多图像推理等能力  

 

 

10 月 3 日

OpenAI 发布 ChatGPT Canvas

OpenAI ChatGPT 推出全新交互界面 Canvas,这是自发布以来最大的 UI 更新 (功能类似于 Claude Artifacts 组件)  

 

 

10 月 8 日

2024 年诺贝尔物理学奖

颁给约翰·J·霍普菲尔德 John J。 Hopfield 和杰弗里·E·辛顿 Geoffrey E。 Hinton,表彰他们在使用人工神经网络进行机器学习的基础性发现和发明  

 

 

10 月 9 日

2024 年诺贝尔化学奖

一半授予大卫·贝克 David Baker,表彰他在「计算蛋白质设计」方面的贡献;另一半授予戴密斯·哈萨比斯 Demis Hassabis 和约翰·M·詹伯 John M。 Jumper,表彰他们在「蛋白质结构预测」方面的贡献  

 

 

10 月 10 日

字节发布首款 AI 智能体耳机 Ola Friend

字节跳动发布首款 AI 智能体耳机 Ola Friend,接入豆包大模型并与豆包 App 深度结合,售价 1199 元  

 

Vivo 增加蓝心端侧大模型 3B

发布全新 OriginOS 5,将大模型技术与手机操作系统深度融合;蓝心端侧大模型矩阵推出了全新的 30 亿蓝心端侧大模型 3B  

 

谷歌图像生成模型 Imagen 3 开放使用

向全球所有 Gemini 用户开放使用,这是谷歌迄今为止质量最高的图像生成模型  

 

智源 BGE 登顶 Hugging Face 月榜

登顶 Hugging Face 月度榜单第一名,这是中国首个登顶模型,而且下载量全球第一 (超过亿次)  

 

State of AI 2024 报告发布

年度报告,总结过去一年的 AI 要点,并预测未来一年 AI 发展趋势,该系列自 2018 年问世以来已经坚持 7 年  

 

 

10 月 11 日

智谱 GLM-4-Flash 与「沉浸式翻译」合作

智谱 GLM-4-Flash 模型与当红翻译插件「沉浸式翻译」合作,为所有用户提供免费的翻译服务 (但是有点慢)  

 

北大&北邮&快手开源高清视频生成模型 Pyramid Flow

北京大学、北京邮电大学和快手联合开源高清视频生成模型 Pyramid Flow,可基于输入文本生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频  

 

 

10 月 12 日

OpenAI 开源多智能体协作框架 Swarm

OpenAI 开源多智能体协作框架 Swarm,帮助开发者设计、编排和管理多智能体系统,更高效地完成复杂任务和工作流  

 

深势科技完成数亿元人民币新一轮融资

深势科技完成数亿元人民币新一轮融资,北京国资再出手大模型,认可 AI for Science 赛道  

 

苹果质疑当前 LLM 缺乏真正的逻辑推理能力

苹果研究团队发文表示,当前 LLM 缺乏真正的逻辑推理能力,更多是在基于训练数据中的模式进行匹配,不是像人类一样进行符号和逻辑推导  

 

 

10 月 14 日

智谱开源文生图模型 CogView3-Plus-3B

智谱开源文生图模型 CogView3-Plus-3B,追平了当前最领先的问生图模型水平  

 

Adobe 推出 AI 旋转工具 Project Turntable

Adobe 推出创新 AI 工具 Project Turntable,可以直接旋转已有的 2D 矢量图像到需要的角度,不再需重新绘制 

 

新华社发布《人工智能时代新闻媒体的责任与使命》

新华社研究院全文发布《人工智能时代新闻媒体的责任与使命》 

 

OpenAI 起诉 Open AI

OpenAI 起诉 Open AI:Ravine 比 Altman 先创业做 AGI,却最终成了被 OpenAI 起诉的「勒索犯」,其实他们本来有数次合作机会,可惜都错过了 

 

 

10 月 15 日

上海交大开源 F5-TTS

上海交通大学开源 F5-TTS,一款基于流匹配的全非自回归文本到语音转换系统,能 15 秒克隆声音,效果直追 Chat-TTS 

 

联想创新科技大会 2024

联想创新科技大会 2024 开幕,发布 PC 个人 AI 智能体、搭载英伟达新核弹 Blackwell 的液冷服务器,以及 AI 手机、AI PC、AI 服务器等新产品&新技术 

 

 

10 月 16 日

英伟达开源 Llama-3.1-Nemotron-70B-Instruct

英伟达开源 Llama-3.1-Nemotron-70B-Instruct,排名仅次于 OpenAI 发布的最新模型 o1 (能排这么高还是有点意外的) 

 

Suno 将视频和图片生成音乐

Suno 推出新功能 Suno Scenes,可以将给定的视频和图片生成 30 秒的音乐  

 

 

10 月 17 日

OPPO 小布助手「一键问屏」功能

2024 OPPO 开发者大会,发布全新的系统级 AI 与 ColorOS 15;全新的小布助手具备了「一键问屏」智能功能 

 

扣子上线 AI 最佳实践模板

字节 AI 应用「扣子」大更新,上线 AI 最佳实践模板,支持一键复制 

 

Mistral AI 发布端侧模型 Ministral 3B/8B

Mistral AI 发布 Ministral 3B/8B,两款用于端侧的小模型 

 

字节实习生田某某破坏模型训练事件

字节官方回应「实习生田某某破坏模型训练」事件真相:发生在 6 月底,确实是田某某所为,传闻损失夸张,田某某已被辞退 

 

 

10 月 18 日

OpenAI 推出 Windows 版 ChatGPT

OpenAI 推出适用 Windows 系统的 ChatGPT 应用;不过目前仅面向 ChatGPT Plus、Team、Enterprise 和 Edu 用户  

 

LiblibAI 开放全新生图 API

AI 生图工具 LiblibAI 开放全新生图 API,支持旗舰模型、经典模型、自定义模型等多种图像模式选择  

 

上海推出 AI 百亿基金规划

上海推出 AI 百亿基金的规划:上海国资将联合米哈游、商汤科技、哔哩哔哩等企业,共同发起设立 AI 生态基金  

 

 

10 月 21 日

WSJ 和 NYT 正式起诉 Perplexity

美国《华尔街日报》和《纽约邮报》正式起诉 AI 搜索公司 Perplexity,指控其侵犯版权;Perplexity 发文回应表示失望和惊讶。 

 

智源发布原生多模态世界模型 Emu3

智源研究院发布原生多模态世界模型 Emu3,原理是只基于下一个 token 预测,无需扩散模型或组合方法,就可以完成文本、图像、视频三种模态数据的理解和生成。 

 

昆仑万维&北大提出通用框架 MoE++

昆仑万维 2050 研究院与北大袁粒团队联合提出了通用框架 MoE++,相较于传统 MoE,具有更快的推理速度和更高的性能。 

 

 

10 月 22 日

Gartner 发布 2025 年十大战略技术趋势

Gartner 发布 2025 年十大战略技术趋势,包括代理型 AI、AI 治理平台、混合计算、空间计算、多功能机器人等内容  

 

DeepSeek 开源多模态 LLM 框架 Janus

DeepSeek 开源多模态 LLM 模型框架 Janus,能够统一处理多模态理解和生成任务  

 

司南开源大模型能力评估模型 CompassJudger

司南 OpenCompass 开源大模型能力模型 CompassJudger,包含 1.5B、7B、14B 和 32B 共四个量级的模型  

 

Anthropic 发布新功能 computer use;发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet

Anthropic 发布革命性新功能 computer use,允许开发者指导 Claude 像人类一样使用计算机,包括查看屏幕、移动光标、点击按钮和键入文本;同时发布 Claude 3.5 Haiku,并升级了 Claude 3.5 Sonnet。 

 

Stability AI 发布 Stable Diffusion 3.5

Stability AI 发布自家最强模型 Stable Diffusion 3.5,包含 3 个型号:Stable Diffusion 3.5 Large、3.5 Large Turbo、3.5 Medium  

 

x.AI 正式推出 API

马斯克宣布 xAI 正式推出 API,并且支持函数调用,官方文档目前只有 Grok-beta 这一个模型  

 

ComfyUI V1 官方桌面版开放内测

ComfyUI V1 即将发布官方桌面版,支持一键安装、支持多个平台、UI 全新升级,已开放内侧申请  

 

华为发布纯血操作系统鸿蒙 OS NEXT

华为正式发布新操作系统鸿蒙 OS NEXT;这是我国首个国产移动操作系统,也是继苹果 iOS 和安卓系统后,全球第三大移动操作系统  

 

 

10 月 23 日

Jina AI 推出高性能分类器 Classifier API

Jina AI 搜索底座推出 Classifier API,是一款高性能分类器,专为处理多模态和多语言数据而设计,支持零样本和小样本分类 

 

OpenAI 发布图像生成模型 sCM

OpenAI 发布全新模型 sCM,图像生成速度提升 50 倍,开启实时、高质量、跨领域的生成式人工智能新阶段 

 

Midjourney 上线外部图片编辑器

Midjourney 上线外部图片编辑器,允许用户上传本地图片,并进行扩展、裁剪、重绘、添加或修改场景内容等操作 

 

Runway 发布动画视频功能 Act-One

Runway 发布 Act-One,将上传的真人表演视频,1 分钟直接转为动画视频,角色表情活灵活现,极大颠覆了传统动画制作流程 

 

Ideogram 推出 AI 画板工具 Canvas

Ideogram 推出 AI 画板工具 Canvas,可以组织、生成、编辑和组合图像,在图片文字和写实风格的特色优势上再进一步 

 

Genmo 开源视频生成模型 Mochi 1

Genmo 开源视频生成模型 Mochi 1,拥有 100 亿参数,生成的视频质量非常高,是开源领域的一次重大进步 

 

荣耀发布操作系统 MagicOS 9.0

荣耀发布新一代操作系统 MagicOS 9.0,是首个搭载智能体的个人化全场景 AI 操作系统,10 月底正式开放 

 

美国 14 岁少年与 C.AI 聊天后离世

美国一名受到精神疾病困扰的 14 岁少年,与聊天机器人告别后结束生命,其母状告 Character.AI 索赔;C.AI 公司回应已进行调整 

 

新华社发文表示警惕「AI 污染」乱象

新华每日电讯发文表示,警惕「AI 污染」乱象 

 

 

10 月 24 日

港中文&趣丸推出 TTS 模型 MaskGCT

香港中文大学 (深圳) 联手趣丸科技推出的 TTS 模型 MaskGCT (29 号成为 Github Global Trending 榜单第一名!恭喜!) 

 

科大讯飞发布讯飞星火 4.0 Turbo

科大讯飞发布讯飞星火 4.0 Turbo,以及正式启动国产超大规模智算平台「飞星二号」 

 

阿里通义代码模式开始内测

阿里巴巴通义宣布「通义代码模式」,并在 App 内开放试用预约 (可以理解为略略加强版的 Claude Artifacts) 

 

Anthropic Claude 新增数据分析功能

Anthropic Claude 平台新增「数据分析」功能,支持对上传数据文件直接编写并运行 JavaScript 代码,从而完成复杂的数据处理和实时分析,并生成可视化图表 

 

北京市大中小学推广 AI 学伴和 AI 导学应用

北京市教委等 5 部门近日发布《北京市教育领域人工智能应用工作方案》,提出面向全市大中小学推广 AI 学伴和 AI 导学应用 

 

稚晖君开源「灵犀 X1」全套资料

稚晖君宣布开源「灵犀 X1」全套资料,人形机器人结构设计、推理代码、训练代码、硬件模块全开源 

 

OpenAI 高管 Miles Brundage 离职

OpenAI 高管 Miles Brundage 离职,发长文回顾工作历程,并称离职是因为 OpenAI 备受瞩目从文导致自己的研究受到了诸多限制 

 

 

10 月 25 日

智谱开源端到端语音大模型 GLM-4-Voice

智谱发布并开源端到端语音大模型 GLM-4-Voice,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,基本对齐 OpenAI Mini-Omni 

 

智谱发布 AutoGLM

智谱发布 AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机 (AutoGLM Web 通过「智谱清言」插件发布,可以根据用户指令在网站上自动完成高级检索、总结与内容生成) 

 

阶跃星辰视频理解模型 step-1.5v-turbo 上线开放平台

阶跃星辰视频理解模型 step-1.5v-turbo 上线开放平台,模型具备出色的视频理解能力,能够准确识别视频中的物体、人物和环境 

 

Notion 发布多项新功能,尤其是 Notion Email

Notion 发布系列新功能,包括表单 Forms、布局 Layouts、自动化 Automations、Notion AI、交易市场以及最受期待的 Notion Email 

 

arXiv 论文页面增加 Hugging Face 按钮

arXiv 论文页面增加 Hugging Face 按钮,选中可以直达相关的 Hugging Face 论文、模型、数据集 

 

 

10 月 26 日

商汤科技被爆大裁员

商汤科技被爆大裁员,官方回应表示:公司的确是在积极推进战略转型,内部组织人才结构进行优化调整 

 

Meta 发布并开源 NotebookLlama

Meta 发布并开源 NotebookLlama,能把 PDF 变播客 (直接对标谷歌大火的 NotebookLM) 

 

 

10 月 28 日

Apple Intelligence 正式开放 (目前仅对美国)

苹果正式发布搭载 Apple Intelligence 的 iOS 18.1,目前仅对美国用户开放 

 

国际开源组织与 Meta 争吵「LLM 开源」的定义

国际开源组织 OSI 发布了对人工智能 Open Souce 的官方定义,直指 Meta 的 LLaMa 大模型不是「真开源」;双方陷入口水战 

 

Arc 浏览器进入维护状态,公司明年发 AI 新品

Arc 浏览器宣布停止开发但会继续保持维护更新;明年初推出的新浏览器将采用水平选项卡并内置 AI 等功能 

 

 

10 月 29 日

爱诗科技发布视频生成模型 PixVerse V3

爱诗科技发布视频生成模型 PixVerse V3,同时提供创意模板、口型匹配、故事续写和风格转换等多模态生成能力  

 

智源推出视觉生成模型 OmniGen

智源研究院推出视觉生成模型 OmniGen,主打全能和统一,集文生图、指代表达生成、通用图像条件生成、图像编辑、经典计算机视觉任务等多功能于一身 

 

 

10 月 30 日

GitHub 宣布接入 Claude 和 Gemini

GitHub 发布了新版 Copilot,现在支持 GPT、Claude、Gemini,并且发布了 Spark (自然语言编程,类似 v0)。 

 

 

10 月 31 日

Recraft AI 文生图模型 Red_Panda 霸榜

文生图模型黑马 Red_Panda 霸榜 Hugging Face,把一众老前辈 Midjourney、Flux 全部踩在脚下。 


 



下面的内容,我相信没人看


本篇内容

由南乔老师诚意制作

南乔自己的很棒的号:ShowMeAI

本篇样式

由「带带弟弟排版器」AI 排版

公众号全程不费手

该排版器已在飞书灰度上线

赛博禅心
拜AI古佛,修赛博禅心
 最新文章