机器之心报道
编辑:Panda、佳琪
要用 Mamba 做可以在任何地方运行的实时智能系统。
Mamba 这种状态空间模型(SSM)被认为是 Transformer 架构的有力挑战者。近段时间,相关研究成果接连不断。而就在不久前,Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。
Cartesia 创立于 2023 年。该团队在相关博客中写到,他们的使命是「构建具有长记忆能力的实时智能,无论你身在何处都能运行。」而其中一部分目标便是「把(Mamba)这些前沿模型带给我们的客户,帮助他们构建实时 AI 应用的未来。」
Albert Gu 的推文
Cartesia 是斯坦福人工智能实验室(Stanford AI Lab)多年来在 SSM 上研究成果的结晶,算得上是学术界到产业界成果转化的又一典范。该团队写到:「在过去四年中,我们构建了 SSM 背后的理论,并对其进行了扩展,让其可在文本、音频、视频、图像和时间序列数据等多种模态下达到 SOTA 的结果。」
消息发布后,人们纷纷点赞,包括 Hugging Face 联合创始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。
Mamba 要落地,第一步是文本转语音?
Transformer 的一大痛点是自注意力机制的计算复杂度过高,这会导致模型在处理长文本时计算量暴增,比如上下文增加 32 倍时,计算量将增加 1000 倍。Mamba 通过引入「SSM」,成功将计算量增长从平方级降至线性,不仅能处理百万级 token 的长序列,还实现了 5 倍的推理吞吐量提升。
论文链接:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
「SSM」的突破让 Mamba 在语言建模方面的效果尤为出色,甚至能击败 Transformer。但从 Cartesia 的产品来看,Mamba 的主要作者 Albert Gu 首先把宝押在了文本转语音上。
他们将 Cartesia 的使命定位为打造具有长期记忆能力、可以在任何地方运行的实时智能系统。
Cartesia 的官方博客写道:「基于 Transformer 架构的模型仍有重要局限,它们一次只能处理和生成很短的信息(几分钟的音频或几秒钟的视频),无法高效地保持交互状态,在大多数硬件上实时运行的成本也太过昂贵。」而能将长序列数据压缩成固定大小的状态的 S4 和 Mamba 架构正好是这些问题的「特效药」。
基于这样的理念,Cartesia 在今年推出了第一个产品 Sonic。这是一个可部署在移动设备上的文本转语音模型,并提供 API 服务。
试玩链接:https://play.cartesia.ai/text-to-speech
除了基础的文本转语音功能,Sonic 还支持声音克隆,并允许用户调节语速、情感、发音和口音等参数。
Sonic 目前支持 15 种语言,还可以按性别调整男性、女性和中性三种选项:
Cartesia 选择了「最快、质量最高」作为 Sonic 的宣传语:它可以在仅 90 毫秒内(大约是眨两次眼睛的时间)流式输出第一个音频字节,完美适用于实时和对话式体验。
机器之心也尝试了一下,Sonic 的速度确实是「超音速」级的,有点偏科,更擅长英语「母语」,中文的 AI 味仍然很重。
提示词:你在以下时间有空吗?上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?
提示词:How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.
论文地址:https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf
Tri Dao:Together AI 首席科学家、普林斯顿大学计算机科学助理教授、Flash Attention 提出者、Mamba 的另一位作者。 Stefano Ermon,斯坦福大学计算机科学副教授。 Simran Arora,Stanford AI Lab 在读博士,其一作论文《Ask Me Anything: A simple strategy for prompting language models》是 ICLR 2023 的 Spotlight 论文。 Sabri Eyuboglu,Stanford AI Lab 在读博士,其一作论文《Simple linear attention models balance the recall-throughput tradeoff》获得了 ICML 2024(用于基础模型的高效系统研讨会) 的最佳论文奖。 Ishaan Preet Singh,投资者之一,曾参与投资了多家创业公司。