Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

科技 2024-12-14 00:01 北京

来源 | 机器之心

Mamba 这种状态空间模型（SSM）被认为是 Transformer 架构的有力挑战者。近段时间，相关研究成果接连不断。而就在不久前，Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。

Cartesia 创立于 2023 年。该团队在相关博客中写到，他们的使命是「构建具有长记忆能力的实时智能，无论你身在何处都能运行。」而其中一部分目标便是「把（Mamba）这些前沿模型带给我们的客户，帮助他们构建实时 AI 应用的未来。」

Albert Gu 的推文

Cartesia 是斯坦福人工智能实验室（Stanford AI Lab）多年来在 SSM 上研究成果的结晶，算得上是学术界到产业界成果转化的又一典范。该团队写到：「在过去四年中，我们构建了 SSM 背后的理论，并对其进行了扩展，让其可在文本、音频、视频、图像和时间序列数据等多种模态下达到 SOTA 的结果。」

消息发布后，人们纷纷点赞，包括 Hugging Face 联合创始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。

Mamba 要落地，第一步是文本转语音？

Transformer 的最大痛点就是线性注意力机制，这导致模型在处理长文本时计算量暴增，比如上下文增加 32 倍时，计算量将增加 1000 倍。Mamba 通过引入「SSM」，成功将计算量增长从平方级降至线性，不仅能处理百万级 token 的长序列，还实现了 5 倍的推理吞吐量提升。

论文链接：https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf

「SSM」的突破让 Mamba 在语言建模方面的效果尤为出色，甚至能击败 Transformer。但从 Cartesia 的产品来看，Mamba 的主要作者 Albert Gu 首先把宝押在了文本转语音上。

他们将 Cartesia 的使命定位为打造具有长期记忆能力、可以在任何地方运行的实时智能系统。

Cartesia 的官方博客写道：「基于 Transformer 架构的模型仍有重要局限，它们一次只能处理和生成很短的信息（几分钟的音频或几秒钟的视频），无法高效地保持交互状态，在大多数硬件上实时运行的成本也太过昂贵。」而能将长序列数据压缩成固定大小的状态的 S4 和 Mamba 架构正好是这些问题的「特效药」。

基于这样的理念，Cartesia 在今年推出了第一个产品 Sonic。这是一个可部署在移动设备上的文本转语音模型，并提供 API 服务。

试玩链接：https://play.cartesia.ai/text-to-speech

除了基础的文本转语音功能，Sonic 还支持声音克隆，并允许用户调节语速、情感、发音和口音等参数。

Sonic 目前支持 15 种语言，还可以按性别调整男性、女性和中性三种选项：

Cartesia 选择了「最快、质量最高」作为 Sonic 的宣传语：它可以在仅 90 毫秒内（大约是眨两次眼睛的时间）流式输出第一个音频字节，完美适用于实时和对话式体验。

机器之心也尝试了一下，Sonic 的速度确实是「超音速」级的，有点偏科，更擅长英语「母语」，中文的 AI 味仍然很重。

不过，从个人创作者和初创公司到大型企业，已有数千名客户在使用 Sonic，主要用于数字人和游戏场景。

例如，AI 模型平台服务商 Cerebrium 将 Sonic 集成到了 AI Avatar 中，通过 Mistral-7B 提供对话能力，配合 Tavus 的动画技术，实现了实时人机互动。在游戏领域，Sonic 与 Ego 合作，为 NPC 角色注入了独特的声音个性。

从免费到企业级，Cartesia 提供多层定价方案：免费版可使用 1 万字符；专业版 5 美元 / 月，支持 10 万字符；创业版 49 美元 / 月，可用 125 万字符；扩展版 299 美元 / 月，提供 800 万字符额度；企业版则完全定制化。各版本的系统同时能处理多少个语音生成任务从 1 到 15 不等，超出字符限制后可按量计费。

为音频和视频等富媒体信号构建长上下文生成模型一直面临着控制性差、容易出现偏差的挑战。在过去几个月，Cartesia 创建了一个新的 SSM 多流架构，可以在多个不同模态的数据流上并行，进行持续推理和生成。

Cartesia 在博客中称，「在这个新 SSM 架构基础上，我们训练了一个端到端的语音生成模型，它可以对文本进行精细控制以防止幻觉，同时保持端到端生成的超高真实感。这比之前的端到端音频生成架构有了根本性的改进，克服了处理复杂、冗长和重复的文本时遇到的困难。

以下是一些「卖家秀」：

提示词：你在以下时间有空吗？上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?

提示词：How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.

这个新模型（Sonic Preview）同样也可以试玩，在未来几周内将开放 API 服务。

Sonic Preview 目前还未开放除英语外的其他语种。不过，据我们在官方提供的 Playgound 中实测，Sonic Preview 的表现一般，「买家秀」和「卖家秀」差得还是有点大。至于博客中写的「超高真实感」嘛，可能还需继续努力。

团队成员介绍

Cartesia 虽然才刚刚建立，但已经有了 30 余位员工和多位顾问。该公司的网站写到：「我们的创始团队是在 Stanford AI Lab 互相认识的 PhD，我们在这里发明了状态空间模型 (SSM)，这是一种用于训练更高质量、更高效的大规模基础模型的基本新原语。」

下面我们将简单介绍 Cartesia 的一些主要创始成员。

Albert Gu，担任首席科学家

Albert Gu，从 Stanford AI Lab 毕业的博士生之一，现在不仅担任 Cartesia 首席科学家，同时也是卡内基・梅隆大学的助理教授。他还入选了《时代》杂志 2024 年 AI 领域百大影响力人物榜单。

2023 年，他在自己的博士学位论文中提出了 S4 架构（Structured State Spaces for Sequence Modeling），之后他与 Tri Dao 合作的 Mamba 便是在这一架构基础上的进一步泛化。

论文地址：https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf

Karan Goel，担任 CEO

Karan Goel 目前正在 Stanford AI Lab 就读博士，导师为 Chris Ré 教授；此外，他的学术生涯中还得到了多位名师指导，其中包括李飞飞、Emma Brunskill、Jure Leskovec 和 Sidhartha Sinha 等多位斯坦福教授。

Goel 的研究方向非常广泛，包括模型审计方法（Robustness Gym、Mandoline）和模型稳健性（Model Patching）、机器学习交互式数据系统（Meerkat）、序列建模新原语（S4）以及序列模型在音频生成（SaShiMi）、图像和视频分类（S4ND）、时间序列预测和医疗应用（GERD Diagnosis）中的应用。

Chris Ré

Christopher Ré，Stanford AI Lab、基础模型研究中心和机器学习研究组副教授。Cartesia 的其他所有联合创始人都是他的学生。

Ré 是 AI 领域的最知名的研究者之一，其主导或参与的研究成果包括 Flash Attention、曾发表于 Science 封面的 Evo、NeurIPS 2023 Spotlight 论文 HyenaDNA、ICLR 2023 Spotlight 论文 Ask Me Anything 等等许多。

Arjun Desai

Arjun Desai 也是 Stanford AI Lab 一位在读博士生。Akshay Chaudhari 和 Chris Ré 都是他的导师。其研究重点是信号处理和机器学习，以及如何为医疗和科学领域的应用构建可扩展的部署和验证系统。

Brandon Yang

Brandon Yang 也曾在 Stanford AI Lab 从事过博士研究，但中途离开学术界进入职场。之后先后在多家公司和团队从事开发工作。2016 年，他参与创立了生产力平台公司 Cadence 并担任 CEO。之后又回到 Stanford AI Lab 担任过一段时间的研究助理，在 Emma Brunskill 的指导下参与了生成对抗树搜索研究，并在吴恩达的指导下研究开发了一些用于医学问题的机器学习算法和数据集。

这段经历之后，他又先后在 deeplearning.ai、谷歌、Snorkel AI 等公司工作。可以说具有非常丰富的学术界和产业界经历。

其他成员

除了以上的联合创始团队，Cartesia 还吸纳了另一些研究者和开发者的加入。

Cartesia 的技术团队

Cartesia 也有一个相当厉害的顾问团队。

Tri Dao：Together AI 首席科学家、普林斯顿大学计算机科学助理教授、Flash Attention 提出者、Mamba 的另一位作者。
Stefano Ermon，斯坦福大学计算机科学副教授。
Simran Arora，Stanford AI Lab 在读博士，其一作论文《Ask Me Anything: A simple strategy for prompting language models》是 ICLR 2023 的 Spotlight 论文。
Sabri Eyuboglu，Stanford AI Lab 在读博士，其一作论文《Simple linear attention models balance the recall-throughput tradeoff》获得了 ICML 2024（用于基础模型的高效系统研讨会）的最佳论文奖。
Ishaan Preet Singh，投资者之一，曾参与投资了多家创业公司。

拓展阅读：

参考链接：

https://x.com/_albertgu/status/1867276846917906592

https://www.cartesia.ai/blog/seed

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

40岁副教授跳槽去大厂，试用期没过被辞退, 原单位回不去, 哭得稀里哗啦……

[送5本]《机器学习漫画小抄》万人追读，未出版就爆火，这本机器学习漫画小抄终于出版了！

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

今天Qwen2.5技术报告发布啦！

大厂跳槽到Start up！分享我的心路历程

震撼高层，中国工程院院士孙凝晖给正国级、副国级讲课-《人工智能与智能计算的发展》

炸裂发布！《大语言模型：导论》重磅发布！（附PDF）

Anthropic：Agents 2024年度总结！

解析大模型常用微调方法：P-Tuning、Prefix Tuning、Adapter、LoRA

[vLLM vs TensorRT-LLM]：采样方法对两者性能的影响

10W+下载，2025最新中文版《大模型基础》教程pdf免费分享

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

DPO vs PPO：深度解读谁是LLM Alignment的未来

零容忍！一博士被撤销学位，证书作废

必看！大模型训练圣经《从头训练大模型》免费PDF分享

YYDS！哈工大博士的PyTorch笔记火了！！

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

谷歌首席科学家 Jeff Dean演讲：人类设计芯片需要18个月，AI只用了1秒钟

微软开源MarkitDown，RAG文档解析就这么解决了~

吴恩达最新演讲：企业都在技术栈底层较劲，应用层才是价值洼地

最值得读的LLM书！下载量10w+！《基于Transformer和扩散模型的生成式AI》pdf免费分享

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

校招字节终于开奖，大模型50K*16 ！！

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

一文看懂：四种多Agent范式哪种最好

OCR多模态大模型：视觉模型与LLM的结合之路

DL4大名著，谷歌科学家Kaggle大神编写《Python深度学习》最新中文版分享

AAAI 2025论文中了：没算法没实验，全靠idea思路好...

2024年大模型后训练(post-training)总结

大模型Infra王朝2024

Qwen预训练并未终结~

终于弄懂了《Transformer入门到精通》高清pdf分享

我国退步最快的985大学？曾位列全国前十，如今排名连年下降...

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

复旦大学：RAG最佳实践

年轻举报者命丧黄泉，生前曝光OpenAI ChatGPT训练惊人黑幕！！

[送5本]《智能崛起：AI文明演化史》智人之上，智能崛起，人类智能是怎么进化出来的？

哈工大博士耗时一年整理《PyTorch常用函数手册》分享，轻松掌握PyTorch的各种操作！

专访李飞飞：从2D到3D，AI将为我们带来哪些改变？

DeepSeek-VL2开源，VLM迈入MoE时代~

每个instance应该有自己的prompt！阿里提出新方法，突破零样本思维链局限

必看！大模型训练圣经《从头训练大模型》免费PDF分享

爆推！中科院博士小册子助你啃透了机器学习！

哈工大博士耗时一年整理《PyTorch常用函数手册》分享，轻松掌握PyTorch的各种操作！

爆推！中科院博士小册子助你啃透了机器学习！

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

腾讯优图最新开源Freeze-Omini：冻结LLM引入语音处理能力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉