在人工智能(AI)迅猛发展的时代,有一个名字不可忽视——Aiden Gomez。他不仅是划时代论文《注意力机制就够了》的作者之一,更是开创了价值超50亿美元AI公司Cohere的传奇人物。从多伦多大学的“幸运实习生”,到谷歌Transformer团队的核心成员,再到带领Cohere重塑企业级AI市场,他的经历是一部技术驱动商业的教科书。
本次访谈中,Aiden分享了从技术研发到商业落地的宝贵经验,讲述了Cohere如何专注于企业需求,通过更低成本、更高效率的AI模型和推理能力为企业赋能。他还展望了AI未来的发展,解释为何AI模型不会简单商品化,以及如何用AI推动行业革命。
AI的价值在于落地,而不是空谈概念。Aiden的务实理念,或许能为每一位创业者带来深刻的思考。
Sarah:今天我们请到了Aiden Gomez,他是Cohere的联合创始人兼CEO。Cohere这家公司估值超过50亿美元,专门为企业提供基于AI的语言模型和解决方案。Aiden在2019年创办了Cohere,更早的时候,他还在谷歌大脑实习,并且是2017年那篇划时代的论文《注意力机制就够了》的作者之一。Aiden,欢迎做客!
Aiden Gomez:谢谢邀请,很高兴能来。
从谷歌实习到Transformer的诞生
Sarah:先聊聊你的个人经历吧。你是怎么从加拿大森林里的小伙子,一步步走到今天,写出AI领域最重要的论文之一的呢?
Aiden Gomez:运气和机遇缺一不可。我正好上的大学有深度学习之父Jeff Hinton——他最近还得了诺贝尔奖!在我读书的多伦多大学,Hinton教授就是神一样的存在,几乎所有学计算机的学生都想进AI领域。所以,某种程度上来说,我算是在AI的摇篮里长大的。
从高中毕业起,我就进入了一个充满AI未来感的环境,大家都想构建AI的未来。之后,就是一些美好的意外。我竟然在谷歌大脑得到了跟Lucas Kaiser实习的机会。后来我才知道,那份实习根本不是给本科生准备的,而是博士生的专属。他们给我这个实习生办欢送会的时候,Lucas问我:“Aiden,你博士还剩几年毕业?” 我说:“啊,我大三还没读完呢。” 他说:“我们不招本科实习生啊。” 所以,我觉得我是一路被幸运的错误推着,才加入了那个团队。
为什么选择创业?
Cohere的初心
Sarah:你在谷歌做着这么有意思、这么重要的工作,怎么会想到要自己创业,创办Cohere呢?
Aiden Gomez:我当时工作地点变来变去。跟Lucas、Noam还有Transformer团队的人一起工作时在山景城;后来回多伦多大学,跟我的联合创始人Nick在多伦多的人工智能实验室工作;然后开始读博,去了英国,在柏林跟另一位Transformer论文作者Łukasz Kaiser一起工作。
Sarah:Łukasz 来过我们的播客哦。
Aiden Gomez:哦,真棒!看来你是我们的忠实听众。当时我还远程跟Jeff Dean和Sanjay Ghemawat合作Pathways项目,那可是个比超级计算机还厉害的训练项目,目标是把好多超级计算机连起来,建一个更大的计算中心来训练模型。那时候GPT-2刚出来,我们都觉得这技术不得了,前途一片光明。
这些表面上是互联网模型、网页模型的东西,以后会带来意想不到的惊喜。于是我就给我的联合创始人Nick和Ivan打电话,说:“咱们是不是该自己做点什么?我觉得这东西以后肯定有用。”
Cohere的定位:
不做ChatGPT,要做企业的AI工具箱
Sarah:给不了解Cohere的听众朋友们简单介绍一下,Cohere的使命是什么?你们的产品和模型又是什么呢?
Aiden Gomez:我们的使命就是帮助其他公司用上AI技术,让他们的员工工作效率更高,产品和服务也更上一层楼。我们专注于企业市场,不会去做ChatGPT的竞品。我们要打造的是一个平台,提供一系列产品,让企业用上AI,创造价值。
Sarah:你自己有研究背景,在组织团队和投资方面,你认为Cohere的成功主要靠核心模型,还是靠其他平台和市场推广方面的投入?
Aiden Gomez:都重要!模型是基础。如果基础打不好,满足不了客户的需求,那再怎么努力也白搭。所以模型是核心,是公司的命脉。但是,在企业市场,客户支持、系统稳定性、安全性也一样关键。所以我们两手都要抓,两手都要硬。我们不只是个建模公司,我们还要把模型推广到市场。
现在,Cohere越来越重视产品,怎么让客户更快地看到价值是我们努力的方向。过去18个月,企业开始意识到AI的潜力,我们也一直在观察大家怎么用我们的模型,他们想做什么,经常犯什么错。这很有帮助,但有时候也挺让人郁闷的,因为老是看到同样的错误重复出现。我们觉得,如果能帮企业避免这些错误,第一次就把事情做对,这里面有巨大的机会。这也是我们正在努力的方向。
AI的常见失败:
是什么卡住了企业的脚步?
Sarah:能不能具体说说?你最受不了的错误是什么?产品要怎么解决这个问题?
Aiden Gomez:所有语言模型对提示词,也就是你给它输入信息的方式,都很敏感。每个模型都有自己的脾气,跟一个模型说话的方式,换到另一个模型身上可能就不管用了。所以,如果你要搭建一个像RAG(检索增强生成)系统,怎么把检索到的结果给到模型就很重要,数据在数据库里的存储方式也很重要。格式很重要!人们经常会忽略这些小细节,他们高估了模型,觉得模型跟人一样。这就导致很多项目失败,而且一错再错。人们想用RAG系统,但不知道怎么正确地用,然后就失败了。
2023年,很多概念验证项目都是这样,大家想熟悉AI技术,理解它,但很多都失败了,就是因为不熟悉,因为总是犯同样的错误。所以,以后我们要这样做:
第一,让模型更皮实,对不同的数据输入方式都能适应;
第二,把产品做得更有条理。别只是把模型丢给用户,然后说“自己用吧,祝你好运”,而是在模型周围搭建更多辅助工具,做更规范的API,清楚地告诉用户怎么用。我觉得这样就能减少失败,让用户更容易上手。
Sarah:大家都在用AI做什么?能说说你看到的企业里最重要的应用案例吗?
Aiden Gomez:应用太广了,几乎所有行业都能用上。最常见的就是问答,比如跟文档库对话。假设你是一家制造公司,你可以给工程师或者流水线上的工人做一个问答机器人,把所有工具手册、故障诊断手册都输进去。然后让工人直接问机器人,不用再去翻厚厚的说明书。同样的,也可以给普通员工做个问答机器人,把IT常见问题、HR文档、公司信息都输进去,做个统一的聊天界面,员工有什么问题都能问。这些都是常见的应用。
除此之外,我们还提供一些特殊功能。举个例子,医疗公司有病人的长期健康记录,包括病人每次看病、体检、拿药的所有信息,几十年都有。这是一份超级全的病历。通常,病人打电话给前台说:“我膝盖疼,想预约。” 医生就得翻病历,看看以前有没有类似的情况。因为每次只有15分钟,医生可能就会错过两年前的信息。但我们可以把病人的所有病史,还有这次来看病的原因一起输进去,给医生生成一份简报。这样医生看起来就快多了,还能发现一些医生平时没时间注意到的问题。医生不可能每次看病都把病人20年的病史都看一遍,那根本不可能。但AI可以,一秒钟就能搞定。所以,这就是我们看到的一些应用,总结、问答机器人。你可能觉得这些功能很普通,但影响力是巨大的。
Sarah:现在有很多创业公司在做企业搜索、特定行业的专业技术支持,甚至分析和检索医疗记录。你认为以后企业会怎么用这些专业的AI应用,以及自己用AI平台和模型API搭建的应用呢?虽然没有绝对的终点,但最终会达到某种平衡状态吗?
Aiden Gomez:我觉得会是混合模式,可以想象成一个金字塔。底层是所有公司都需要的通用工具,就像Copilot一样,每个员工都有个聊天机器人,可以回答各种问题。越往上,应用就越 specific to the company itself 或 they operated in our offer。到了最顶层,就很难找到现成的解决方案了,只能自己开发。我们建议企业制定一个覆盖整个金字塔的战略。
你需要通用的标准工具,也可以买一些行业专用工具。但如果要自己开发,就别重复造轮子,去做那些买不到的、能让你脱颖而出的东西。我们跟一家保险公司合作过,他们给大型工业项目做保险。我之前对这个行业一无所知。原来,他们是这样做的:矿山或者其他项目会发布保险招标,他们的精算师就要研究招标书,调查土地、风险等等,然后就是抢时间,谁先回复谁就能拿下项目。所以,关键在于速度,精算师能多快提交方案。我们帮他们做了个研究助手,把精算师要用到的所有资料通过RAG连起来,做成一个聊天机器人。这样,他们回复招标的速度就快多了,业务也跟着增长,因为拿下的项目更多了。我们做的是通用技术,LLM就像CPU一样。我不知道LLM的所有应用,它的应用太广了。真正重要的、能让你领先的,是倾听客户的声音,让他们告诉你什么能让他们赢。我们一直在做的,就是跟客户一起思考,帮他们找到对他们最重要的项目和点子。
Sarah:我觉得这家公司能赢,是因为他们的竞争对手还没这么快用上AI研究助手。你认为现在企业用AI最大的障碍是什么?
Aiden Gomez:我觉得是信任。安全性是个大问题,尤其是在金融、医疗这种受监管的行业。数据通常不在云上,或者就算在云上,也不能离开他们的虚拟私有云(VPC)。所以数据很封闭,很敏感。Cohere的优势就在于,我们不把自己限制在一个生态系统里,我们可以灵活部署,不管客户想在VPC里、VPC外,还是其他地方,我们都能处理各种数据,包括最敏感的数据,提供更有价值的服务。所以,安全和隐私可能是最大的障碍。另外,还有知识,知道怎么搭建这些系统。这些都是新东西,大家都不熟悉。即使最有经验的人,经验也就几年而已。所以这也是个主要问题。我觉得归根结底还是时间问题。过几年,开发者就熟悉怎么用AI了,但我估计真正普及还得两三年。
Sarah:企业技术通常有个炒作周期,大家一开始很兴奋,后来发现应用起来比想象的更难更贵,然后就进入“幻灭的低谷”。AI领域也有这种情况吗?
Aiden Gomez:肯定有,但我觉得核心技术一直在进步,每几个月就有新的应用出来。所以我觉得我们还没到“幻灭的低谷”。感觉我们还很早期。你看现在市场上,AI能做很多以前根本做不到的事情。以前根本做不到,现在可以了。所以,技术产品系统正在焕然一新。就算我们不训练新模型了,假设所有数据中心都炸了,我们没法改进模型了,就用现有的模型,整合到各个行业,开发各种应用,比如保险招标回复机器人、医疗记录摘要器,这些工作都够做五年的。所以,我们还有很多事要做。我觉得我们已经过了那个阶段了。之前大家会问:是不是炒作太厉害了?这技术真的有用吗?但现在几亿人都在用AI了,已经投入到实际应用中了,它的价值很明显。现在要做的是让更多人用上AI,把它推广到全世界。
Sarah:说到跟现实世界的整合,一部分是界面、管理变更,还有怎么让用户理解模型的输出、安全防护等等。说到模型和专业化,你们有没有什么框架,可以帮助客户选择合适的模型?我们有预训练、后训练、微调、检索,还有传统的提示工程,尤其现在上下文越来越长,你们怎么指导客户选择合适的专业化方法?
Aiden Gomez:要看具体应用。比如我们跟日本最大的系统集成商富士通合作,做了个日语语言模型。这必须从预训练开始,没法通过微调或者后训练把日语加到模型里,只能从头开始。另一方面,有些简单的应用,比如你想改变模型的语气,或者调整输出格式,那微调就够了,直接用最终的模型就行。所以这是一个循序渐进的过程。我们一般建议客户从最便宜、最简单的微调开始,然后一步步往回推。先微调,再后训练,比如监督式微调、强化学习和人工反馈。然后,如果需要,我知道这是一个过程,在实际应用中,要求会越来越高,你可能需要用到预训练。希望不用全部预训练,最好是最后10%或者20%的预训练。但总的来说,就是从最简单、最便宜的开始,慢慢做到最复杂、性能最好的。
Sarah:从最便宜的开始,循序渐进,这很合理。但我觉得不是所有企业客户都会投资预训练。有些实验室的专家认为,除了少数AGI实验室,其他公司都不该碰预训练,因为计算量太大,数据整理太难,需要的人才也太稀缺。你怎么看?
Aiden Gomez:我觉得,如果你是大公司,数据量巨大,比如几千亿token,那预训练确实是个可以用的工具。但对大多数中小企业,还有创业公司来说,预训练没必要。但如果是大公司,可以认真考虑一下。问题是需要多少预训练。不用从头开始,花5000万美元训练,可以只训练一部分,比如500万美元。我们看到一些成功的案例,都是这种持续的预训练。所以,这也是我们提供的服务之一。但我们不会直接推荐这个。如果你不想,也不用花那么多钱。通常,企业采购和技术采用周期都很长,所以你有时间慢慢来。我觉得这完全取决于客户自己,但那些说除了AGI实验室,其他地方都不该做预训练的人,我觉得经验上是错的。
Sarah:这正好引出了下一个话题,技术发展趋势,以及对Cohere的影响。你对Cohere的内部标准是什么?你说过模型是基础,也说过去年的模型没有市场。你怎么平衡这跟投资、竞争还有开源模型兴起之间的关系?
Aiden Gomez:训练模型肯定要花钱,要达到一定标准才能做出有用的模型。成本会下降,训练所需的计算成本会下降,数据来源,有些会便宜,有些不会。合成数据便宜多了,但专家数据越来越难弄,也越来越贵。现在,花1000万到2000万美元就能做出跟GPT-4一样好的企业级模型,比那些顶级实验室的成本低了好几个数量级。所以,如果你愿意等六个月到一年,就能用更低的成本做出同样的模型。这就是Cohere的策略,我们不用第一个做出来。我们要做的是用更低的成本做出来,而且专注于客户真正需要的功能。同时,我们也要花钱,比一般创业公司花的更多,因为我们要买超级计算机,每年要花几亿美元。所以很烧钱,但不是低效的。很明显,我们能在这个基础上建立一个赚钱的生意。所以,我们的策略是不争第一,不用一年烧30亿、50亿、70亿去当老大,而是慢半年,用合理的价格给企业提供他们真正需要的东西。
开源与价格战:
模型会商品化吗?
Sarah:现在开源模型越来越多了,为什么还要自己花钱买超级计算机,自己训练呢?
Aiden Gomez:不用啊,真的不用。
Sarah:说说看。
Aiden Gomez:拿Llama来说,你拿到的是基础模型,还有训练完冷却下来、梯度为零的最终模型。拿这些模型去微调,效果不如自己从头训练,而且能调整的参数也少得多。如果你能拿到数据,还能修改数据,那就不一样了。所以我们觉得,垂直整合,自己训练模型,能更好地满足客户的需求。
推理计算的崛起:
AI商业模式的新革命
Sarah:说说未来吧。模型规模扩大带来的性能提升,现在到什么程度了?你预计未来几年性能还会大幅提升吗?
Aiden Gomez:我觉得已经到后期了,开始进入平缓期了。以前,跟模型聊几句就能知道它多聪明,现在不行了,那种直觉测试没用了。现在得找专家在特定领域,比如物理、数学、化学、生物,来评估模型的水平,因为普通人已经感觉不出不同代模型之间的差别了。当然,还有很多可以改进的地方,但这些改进主要体现在专业领域,对研究领域影响更大。对企业来说,对他们想自动化的那些日常工作,或者想开发的工具来说,现在的技术已经够好了,或者稍微改进一下就够用了。所以,这就是我们现在的阶段。现在出现了一个新的突破,就是推理能力。在线推理以前是没有的。以前的模型没有“内心独白”,你问它问题,它就直接回答,不会思考,也不会犯错、改错、再尝试。现在有了推理模型,这很有意思。OpenAI是第一个把它用起来的,但Cohere也研究了一年多了。我觉得这技术很有潜力。它能解决很多新问题,也改变了成本结构。以前,客户跟我说:“Aiden,我希望你的模型在X方面更好,或者我想要更智能的模型。” 我会说:“好,给我们6到12个月,我们要重新训练,训练更长时间,训练更大的模型。” 这是我们提升模型性能的唯一办法。现在有了第二个办法,可以根据客户的需求收费。你可以说:“好,推理的时候多花两倍的token或者两倍的时间,就能得到更智能的模型。” 这样用户体验就好多了。“想要更智能的模型?现在就有!多付点钱就行。” 用户不用再等六个月了。对开发模型的人来说,也不用把超级计算机扩大一倍来达到更高的智能水平,只要把客户支付的推理计算量翻倍就行。所以我觉得这是一个很有意思的结构性变化,改变了我们推广产品的方式,也改变了我们能开发的产品和提供给客户的服务。
Sarah:我同意。现在大家可能低估了从固定资产投资模式到消费模式的转变对客户的吸引力。虽然这两个东西不能直接比较,但我认为以后大家会更愿意花钱解决问题,不用再等几个月训练新模型了。
Aiden Gomez:大家还没充分意识到推理计算对智能的影响。即使在芯片层面,影响也很大。比如要造什么芯片,建数据中心要优先考虑什么。如果推理计算不用大型超级计算机,只要一些节点就行,那就可以在本地做更多的事情。我觉得这对整个产业链都有很大的影响。这是模型能做什么、怎么做的新模式。
AGI与AI未来:
技术边界在哪里?
Sarah:你一直在说推理,但普通人对推理的概念比较模糊。能不能举几个例子,说明推理能帮我们更好地解决哪些问题?
Aiden Gomez:我觉得任何多步骤的问题都行。有些多步骤问题,你记住就行,就像我们以前训练模型做的那样,比如解多项式。但其实,解多项式应该一步步来。人就是这样解的。我们不会看到一个多项式,马上就能写出答案,除非是记住的。通常,你得一步步算,分解问题,先算小的部分,最后合成最终答案。这就是我们以前缺失的。我们有思维链之类的技术,可以模拟推理,但那更像是“补丁”。
我们以前训练模型,只是让它记住输入输出。我们找到了一种方法,让它表现得像在推理。现在不一样了,新一代模型从一开始就内置了推理能力。以前模型没有推理能力,是因为我们用互联网数据训练的。互联网上的文档都是推理的结果,但推理过程是隐藏的。就像写文章一样,作者可能想了好几个星期,删删改改,最后才发表出来。我们看到的只是最终结果,中间的过程都隐藏起来了。所以,第一代语言模型没有“内心独白”很正常。现在,我们用人工数据和合成数据,专门收集人们的思考过程。我们让人们把思考过程说出来,记录下来,用来训练模型。我非常看好这个方向。现在效率还很低,也很不稳定,就像早期的语言模型一样。但未来两三年,它会变得非常强大,能解决很多新问题。
Sarah:你说模型规模扩大带来的性能提升进入平缓期了,主要原因是什么?是因为获取专家数据和推理轨迹的成本越来越高,比从网上抓数据贵多了吗?是因为计算成本太高了吗?你为什么觉得增长会放缓?
Aiden Gomez:画油画的时候,先要涂一层底色,覆盖整个画布。然后再画出山的形状、树的形状。越到后面,笔触越精细。一开始可以用大笔刷刷刷几下,但越到后面,越需要精细的工具。语言模型也一样。我们能很快学会常见的、简单的任务。但到了更专业、更精细的领域,比如科学、数学,进步就慢了。有些领域,我们可以用合成数据,比如代码和数学。这些领域,答案很容易验证,对就是对,错就是错。所以我们可以生成很多合成数据,然后验证对错。对了就用来训练。其他需要实际测试和知识的领域,比如生物、化学,生成数据的瓶颈就大了。你得去找专家,在这些领域有几十年经验的专家,把他们的知识提取出来。但最终,专家数量有限,数据也有限,你就会碰到人类知识的边界。给这幅画添加更精细的细节越来越难。我觉得这是一个根本性问题,没有捷径。未来,我们得让模型自己做实验,自己去探索它感兴趣的领域。但我觉得这还很远,而且很难规模化,需要很多年。我们一定会做到,但需要时间。Cohere现在关注的是,把现有的技术应用到实际生产中,让更多企业用上AI,提高生产力。虽然技术进步放缓的原因很有意思,但我觉得也很明显。模型越来越厉害,已经快到人类知识的边界了,而它们的知识主要来自人类。
Sarah:你很务实,专注于把现有技术应用到实际中。我想我知道答案,但你或者Cohere怎么看待AGI(通用人工智能)和技术爆炸?这对你重要吗?
Aiden Gomez:AGI对不同的人有不同的含义。我相信我们能造出通用智能机器,肯定能,但AGI已经被过度解读了,我们已经在路上了,而且走了很远了。
Sarah:业内有些人认为,可以设定一个断点,即使是连续函数,也可以设定一个断点,比如AI能在任何数字领域取代受过教育的专业人士。你的观点是,没有这种重要的断点。
Aiden Gomez:那就像一个清单,你把所有项目都打勾了,就达到了AGI。但我觉得你总能找到反例,比如“AI还没打败某个做着奇怪事情的人”。我觉得这是一个连续的过程,我们已经走了很远了。但我不同意那种超级智能、自我进化、最后变成终结者消灭人类的AGI。或者创造 abundance?谁知道呢。或者创造abundance。我觉得abundance要靠我们自己创造,不用等什么“上帝”来帮我们。我们现在就能用AI创造abundance,不用依赖什么AGI。如果AGI是指能做很多人类能做的事情,能适应不同领域的强大技术,那我们会的。但如果是指造出“上帝”,那不会。
Sarah:你觉得这种观点差异的原因是什么?
Aiden Gomez:我不太清楚。可能我更关注技术的实际问题,它哪里会出错,哪里会慢,哪里会停滞不前。可能其他人更乐观,他们觉得曲线会一直往上走,我不同意。我觉得会有阻力,会有真正的阻力出现。就算理论上,神经网络可以逼近任何函数,但要逼近所有函数,你需要一个宇宙那么大的神经网络。所以,我觉得有一些根本性的限制,会限制AI实际能达到的水平。
Sarah:你觉得有没有哪些领域,现在的LLM根本不适合做预测?比如,我们能用序列到序列模型做物理模拟吗?
Aiden Gomez:应该可以吧,物理就是一系列状态和转移概率。所以应该很适合用序列模型来做。但肯定有些领域不适合。肯定有更好的、更高效的模型。在特定领域,可以利用领域的特殊结构,去掉Transformer里一些不必要的通用性,做出更高效的模型。在特定领域,肯定可以这样做。
Sarah:你好像不觉得这是个根本性的表示问题,模型结构本身的问题。
Aiden Gomez:世界上有些事是本质上不确定的,你就是不知道,再大的模型也没用。这些事,除非我们学会怎么观察它们,否则永远没法建模。我觉得Transformer这类模型的潜力比大家想的要大得多。它很通用,很多东西都能表示成序列,而这些模型就是序列模型。所以,只要能表示成序列,Transformer就能做得很好。但肯定有些领域,序列模型效率很低。比如,你可以把图表示成序列,但那不是最佳的模型。用其他方法,成本会低得多。
Sarah:最后一个问题。你之前说,扩大推理计算量带来的改变,大家还没充分意识到。你觉得还有什么被市场低估了,而Cohere正在思考的事情?
Aiden Gomez:我觉得模型商品化这个说法不对。我觉得模型不会变成商品。现在是价格战,大家亏本卖,甚至免费送。所以大家看到价格下降,就觉得是商品化了。我觉得,现在技术正在经历一次彻底的变革,这会持续10到15年。就像我们要把地球上的所有路都重修一遍。现在只有四五家公司知道怎么做水泥。就算现在有些公司免费送水泥,但长期来看,只有少数公司掌握核心技术,而我们要做的工作量巨大,还要应对增长压力,要给投资者回报。亏本卖,甚至免费送这么贵的技术,不是长久之计。市场的增长压力会把价格推上去。你看两周前Haiku的价格就知道了。
Sarah:Aiden,非常感谢你今天的分享。
Aiden Gomez:不客气,我也很开心。
关注《森林聊AI商业》公众号
了解 AI 如何塑造商业的未来