Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

科技 2024-12-13 15:29 北京

机器之心报道

编辑：Panda、佳琪

要用 Mamba 做可以在任何地方运行的实时智能系统。

Mamba 这种状态空间模型（SSM）被认为是 Transformer 架构的有力挑战者。近段时间，相关研究成果接连不断。而就在不久前，Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。

Cartesia 创立于 2023 年。该团队在相关博客中写到，他们的使命是「构建具有长记忆能力的实时智能，无论你身在何处都能运行。」而其中一部分目标便是「把（Mamba）这些前沿模型带给我们的客户，帮助他们构建实时 AI 应用的未来。」

Albert Gu 的推文

Cartesia 是斯坦福人工智能实验室（Stanford AI Lab）多年来在 SSM 上研究成果的结晶，算得上是学术界到产业界成果转化的又一典范。该团队写到：「在过去四年中，我们构建了 SSM 背后的理论，并对其进行了扩展，让其可在文本、音频、视频、图像和时间序列数据等多种模态下达到 SOTA 的结果。」

消息发布后，人们纷纷点赞，包括 Hugging Face 联合创始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。

Mamba 要落地，第一步是文本转语音？

Transformer 的一大痛点是自注意力机制的计算复杂度过高，这会导致模型在处理长文本时计算量暴增，比如上下文增加 32 倍时，计算量将增加 1000 倍。Mamba 通过引入「SSM」，成功将计算量增长从平方级降至线性，不仅能处理百万级 token 的长序列，还实现了 5 倍的推理吞吐量提升。

论文链接：https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf

「SSM」的突破让 Mamba 在语言建模方面的效果尤为出色，甚至能击败 Transformer。但从 Cartesia 的产品来看，Mamba 的主要作者 Albert Gu 首先把宝押在了文本转语音上。

他们将 Cartesia 的使命定位为打造具有长期记忆能力、可以在任何地方运行的实时智能系统。

Cartesia 的官方博客写道：「基于 Transformer 架构的模型仍有重要局限，它们一次只能处理和生成很短的信息（几分钟的音频或几秒钟的视频），无法高效地保持交互状态，在大多数硬件上实时运行的成本也太过昂贵。」而能将长序列数据压缩成固定大小的状态的 S4 和 Mamba 架构正好是这些问题的「特效药」。

基于这样的理念，Cartesia 在今年推出了第一个产品 Sonic。这是一个可部署在移动设备上的文本转语音模型，并提供 API 服务。

试玩链接：https://play.cartesia.ai/text-to-speech

除了基础的文本转语音功能，Sonic 还支持声音克隆，并允许用户调节语速、情感、发音和口音等参数。

Sonic 目前支持 15 种语言，还可以按性别调整男性、女性和中性三种选项：

Cartesia 选择了「最快、质量最高」作为 Sonic 的宣传语：它可以在仅 90 毫秒内（大约是眨两次眼睛的时间）流式输出第一个音频字节，完美适用于实时和对话式体验。

机器之心也尝试了一下，Sonic 的速度确实是「超音速」级的，有点偏科，更擅长英语「母语」，中文的 AI 味仍然很重。

不过，从个人创作者和初创公司到大型企业，已有数千名客户在使用 Sonic，主要用于数字人和游戏场景。

例如，AI 模型平台服务商 Cerebrium 将 Sonic 集成到了 AI Avatar 中，通过 Mistral-7B 提供对话能力，配合 Tavus 的动画技术，实现了实时人机互动。在游戏领域，Sonic 与 Ego 合作，为 NPC 角色注入了独特的声音个性。

从免费到企业级，Cartesia 提供多层定价方案：免费版可使用 1 万字符；专业版 5 美元 / 月，支持 10 万字符；创业版 49 美元 / 月，可用 125 万字符；扩展版 299 美元 / 月，提供 800 万字符额度；企业版则完全定制化。各版本的系统同时能处理多少个语音生成任务从 1 到 15 不等，超出字符限制后可按量计费。

为音频和视频等富媒体信号构建长上下文生成模型一直面临着控制性差、容易出现偏差的挑战。在过去几个月，Cartesia 创建了一个新的 SSM 多流架构，可以在多个不同模态的数据流上并行，进行持续推理和生成。

Cartesia 在博客中称，「在这个新 SSM 架构基础上，我们训练了一个端到端的语音生成模型，它可以对文本进行精细控制以防止幻觉，同时保持端到端生成的超高真实感。这比之前的端到端音频生成架构有了根本性的改进，克服了处理复杂、冗长和重复的文本时遇到的困难。

以下是一些「卖家秀」：

提示词：你在以下时间有空吗？上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?

提示词：How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.

这个新模型（Sonic Preview）同样也可以试玩，在未来几周内将开放 API 服务。

Sonic Preview 目前还未开放除英语外的其他语种。不过，据我们在官方提供的 Playgound 中实测，Sonic Preview 的表现一般，「买家秀」和「卖家秀」差得还是有点大。至于博客中写的「超高真实感」嘛，可能还需继续努力。

团队成员介绍

Cartesia 虽然才刚刚建立，但已经有了 30 余位员工和多位顾问。该公司的网站写到：「我们的创始团队是在 Stanford AI Lab 互相认识的 PhD，我们在这里发明了状态空间模型 (SSM)，这是一种用于训练更高质量、更高效的大规模基础模型的基本新原语。」

下面我们将简单介绍 Cartesia 的一些主要创始成员。

Albert Gu，担任首席科学家

Albert Gu，从 Stanford AI Lab 毕业的博士生之一，现在不仅担任 Cartesia 首席科学家，同时也是卡内基・梅隆大学的助理教授。他还入选了《时代》杂志 2024 年 AI 领域百大影响力人物榜单。

2023 年，他在自己的博士学位论文中提出了 S4 架构（Structured State Spaces for Sequence Modeling），之后他与 Tri Dao 合作的 Mamba 便是在这一架构基础上的进一步泛化。

论文地址：https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf

Karan Goel，担任 CEO

Karan Goel 目前正在 Stanford AI Lab 就读博士，导师为 Chris Ré 教授；此外，他的学术生涯中还得到了多位名师指导，其中包括李飞飞、Emma Brunskill、Jure Leskovec 和 Sidhartha Sinha 等多位斯坦福教授。

Goel 的研究方向非常广泛，包括模型审计方法（Robustness Gym、Mandoline）和模型稳健性（Model Patching）、机器学习交互式数据系统（Meerkat）、序列建模新原语（S4）以及序列模型在音频生成（SaShiMi）、图像和视频分类（S4ND）、时间序列预测和医疗应用（GERD Diagnosis）中的应用。

Chris Ré

Christopher Ré，Stanford AI Lab、基础模型研究中心和机器学习研究组副教授。Cartesia 的其他所有联合创始人都是他的学生。

Ré 是 AI 领域的最知名的研究者之一，其主导或参与的研究成果包括 Flash Attention、曾发表于 Science 封面的 Evo、NeurIPS 2023 Spotlight 论文 HyenaDNA、ICLR 2023 Spotlight 论文 Ask Me Anything 等等许多。

Arjun Desai

Arjun Desai 也是 Stanford AI Lab 一位在读博士生。Akshay Chaudhari 和 Chris Ré 都是他的导师。其研究重点是信号处理和机器学习，以及如何为医疗和科学领域的应用构建可扩展的部署和验证系统。

Brandon Yang

Brandon Yang 也曾在 Stanford AI Lab 从事过博士研究，但中途离开学术界进入职场。之后先后在多家公司和团队从事开发工作。2016 年，他参与创立了生产力平台公司 Cadence 并担任 CEO。之后又回到 Stanford AI Lab 担任过一段时间的研究助理，在 Emma Brunskill 的指导下参与了生成对抗树搜索研究，并在吴恩达的指导下研究开发了一些用于医学问题的机器学习算法和数据集。

这段经历之后，他又先后在 deeplearning.ai、谷歌、Snorkel AI 等公司工作。可以说具有非常丰富的学术界和产业界经历。

其他成员

除了以上的联合创始团队，Cartesia 还吸纳了另一些研究者和开发者的加入。

Cartesia 的技术团队

Cartesia 也有一个相当厉害的顾问团队。

Tri Dao：Together AI 首席科学家、普林斯顿大学计算机科学助理教授、Flash Attention 提出者、Mamba 的另一位作者。
Stefano Ermon，斯坦福大学计算机科学副教授。
Simran Arora，Stanford AI Lab 在读博士，其一作论文《Ask Me Anything: A simple strategy for prompting language models》是 ICLR 2023 的 Spotlight 论文。
Sabri Eyuboglu，Stanford AI Lab 在读博士，其一作论文《Simple linear attention models balance the recall-throughput tradeoff》获得了 ICML 2024（用于基础模型的高效系统研讨会）的最佳论文奖。
Ishaan Preet Singh，投资者之一，曾参与投资了多家创业公司。

拓展阅读：

参考链接：

https://x.com/_albertgu/status/1867276846917906592

https://www.cartesia.ai/blog/seed

转载请联系本公众号获得授权

投稿或寻求报道：content@liyazhou.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉