👇关注公众号后设🌟标,掌握第一手AI新动态
本文访谈内容整理自艾尔街资本Nathan Benaich接受The MAD Podcast with Matt Turck Youtube频道专访,公开发表于2024年11月14日。原始内容参考:https://www.youtube.com/watch?v=c_87fwKmkjM
Nathan Benaich接受The MAD Podcast with Matt Turck专访
★内容导读:
本次访谈中,围绕Nathan的《人工智能现状》2024年度报告展开讨论,主要观点如下:关于AI发展现状及趋势:
模型发展: 基础模型发展从单模态(文本)到多模态(文本、图像、音频),中国在这一领域快速崛起并积极贡献开源模型。尽管各公司模型能力差距缩小,但OpenAI仍然占据主导地位。Meta的Llama模型开源策略虽然提升了公司市值,但并未撼动OpenAI的市场份额。 应用及商业化: AI基础模型的成本大幅下降,盈利能力显著提升,部分应用的客户粘性也得到提高,AI公司发展速度远超传统SaaS公司。语音生成技术已趋于成熟,并具备广泛的应用前景。 市场转变: 行业氛围从最初的“末日论”转向积极的商业化探索。人们对AI风险的担忧有所减弱,更多关注其实际应用价值。这种转变可能源于人们对AI模型的实际体验,以及对AI技术落地难度的认识。 应用方向: 消费级应用市场潜力巨大,基于语音克隆技术的应用有望成为下一个爆款。开发AI应用的门槛降低,无需深度AI工程师即可创业。 投资机会: 投资机会在于寻找非共识领域,例如利用现有技术开发消费级应用。关注能快速验证商业模式的项目,利用现成基础模型,注重产品设计和用户体验,而非过度追求技术先进性。 机器人领域: 凭借多模态模型的进步,机器人领域迎来复兴,特别是仓库机器人和人形机器人。但硬件结合AI的投资存在风险,需要谨慎评估。 芯片领域: 英伟达在AI芯片领域占据绝对优势,短期内难以被撼动。 欧盟AI监管: 欧盟的AI监管法规对AI产品在欧洲市场准入造成一定限制,可能存在过度监管的问题。
Nathan Benaich简介
Nathan Benaich是风险投资公司Air Street Capital的创始人和普通合伙人。他专注于投资人工智能领域的早期阶段创业公司,尤其关注那些推动人工智能前沿研究并将其转化为实际应用的公司,包括基础模型、开发者工具、以及应用于生物、医疗、工业等垂直领域的人工智能技术。
Benaich拥有剑桥大学计算生物学博士学位,在创立Air Street Capital之前,他曾是Playfair Capital的合伙人,并拥有丰富的科学研究和投资经验。他深入了解人工智能领域的学术研究和产业发展趋势,并积极参与行业活动,例如组织年度深度学习峰会——The State of AI,该峰会已成为人工智能领域的重要活动,汇聚了全球顶尖的研究人员、企业家和投资者。
除了投资活动,Benaich还撰写和发布关于人工智能趋势的深度报告和文章,为行业提供有价值的见解,并积极推动人工智能技术的负责任发展。他被认为是人工智能领域具有影响力的思想领袖之一。
访谈记录
主持人: 请欣赏与 Nathan 的精彩对话。Nathan,欢迎。很高兴来到这里。我们将讨论你每年辛勤劳作的成果——《人工智能现状》报告,该报告于今年 10 月 10 日发布,这是一项巨大的努力,令人印象深刻,我每年都期待着它,今年也同样非常喜欢。谢谢你。也许作为介绍,有些人可能看过这份报告,但报告背后的那个人是谁?你的故事能讲一下吗。
Nathan Benaich: 是的,是的。我的日常工作是经营一家名为 Air Street Capital 的基金。我和你一样,投资专注于人工智能的早期公司。大约四年前我独自创立了它,至今仍以独立管理合伙人的身份运营。我在北美和欧洲投资,并且拥有广泛的兴趣,这些兴趣通常反映在我的报告和编辑能力中。
我认为我喜欢制作这份报告的主要原因,以及我们最初制作它的原因是,我认为为你的工作和合作的生态系统做出贡献,是一种很好的增值贡献方式。在我们人工智能领域,一切都非常技术化,许多突破都来自大学或工业实验室。为了尽可能了解进展方向,你必须了解它的来源和运作方式。
第二点是,该行业有许多不同的参与者,无论是政治、各种规模的大公司还是大学。所有这些不同的参与者都是各自领域的专家,但他们往往没有时间真正抬起头来观察他们所在领域发生的事情。
第三个原因是几年前我非常喜欢 Mary Meeker 的互联网趋势报告,当她停止发布它时,我感到有点难过。我觉得人工智能领域应该有类似的东西。我认为没有人喜欢那种咨询式的“购买我的产品”的方式。因此,我们想创造一些粗糙的东西,看起来就像有人坐在办公桌前打字,并且弄乱了格式。
这旨在反映进步,并采取一种有见地的观点,希望它足够好,如果它落在人工智能公司首席执行官的办公桌上,他们会认为他们的工作得到了恰当的体现。与此同时,如果它到达了政策制定者的手中,他们也能理解正在发生的事情。
主持人: 你从一开始就一直在做这个,对吗?因为你是在 2018 年创立 Air Street Capital 的,第一份报告也是在 2018 年。
Nathan Benaich: 是的。两者之间没有关联。事后看来看起来不错,但是,风投加上内容发布媒体,很多事情只是偶然发生,因为我觉得这是一个好主意,而且没有人这样做,所以我们应该尝试一下。
主持人: 然后事情就开始了。说到坐在办公桌前打字的人,这份报告包含了大量的幻灯片和信息,这是一项巨大的努力。你是怎么做到的?你是每天做一点,还是在某个时候消失三个月?每天工作20个小时?这是怎么做到的?
Nathan Benaich: 嗯,我想这就像之前一样,我喜欢制作比较长的分析性内容。我本科写了论文,硕士也写了论文,博士也写了论文,我已经习惯按时完成作业了。我觉得如果让我突击完成,那会非常痛苦。所以从2015年开始,我每个月都会整理一些论文、行业趋势以及新兴公司,并分析我认为它们有趣的原因以及人们应该了解的内容。我们将其命名为“AI 指南”,每月发布一次。至少这为这段时间内哪些内容比较有趣提供了一个衡量标准。然后在撰写报告时,我们显然可以回顾这10个月的月度指标,看看其中包含的内容是否已经消失、改变或不再酷炫,或者某件事是否比我们撰写时规模更大。
主持人: 从去年到今年,氛围发生了一些变化。你也有这种感觉吗?
Nathan Benaich: 是的,我认为很准确。我的意思是,氛围有很多不同的类型。比如,当你尝试一个模型时,构建者通常会谈论它的“氛围”,也就是与它对话时的感觉。这是“氛围”的一种类型。
但另一种主要的氛围,尤其是在政治部分中我们强调的,是那种从存在风险的摆动转变。如果我们做错了,如果我们发展太快,我们可能会导致人类灭绝。这转变到另一极端:我们需要扩展这些产品,这些模型非常有用。
我们现在可能存在技术上的过剩,我们可以用现有的技术构建更多产品。这是一场争取盈利的大赛。我发现这种氛围转变的力量非常惊人,那些12个月前还在政府领导面前发出警告的人,现在却在巴黎或纽约买下广告牌,说:“请使用我的应用程序。”
所以,我很难理解为什么会发生这种情况,以及同一个人如何同时保持这两种模式。也许只是聪明人改变了主意,事情就是这样发展的。我很高兴这种转变发生了,因为我觉得存在风险的争论有点被夸大了。
主持人: 公平地说,这不仅仅是一家公司的事。感觉那种末日论调消失了,是的,消失了。这很有意思,对吧?是不是因为人们花更多时间使用模型和尝试产品,并意识到这些产品实际上很难部署,而且经常出错?
Nathan Benaich: 你认为呢?我想可能是几个原因。我的意思是,曾有人说我们应该轰炸数据中心。这在《时代》杂志上是一篇重要的文章。你知道,这些事情不是开玩笑的。这太疯狂了。克里斯蒂安娜·阿曼普尔在CNN上告诉数百万人,人工智能系统就像生命体一样,我们培养它们,而不是编写它们。这很可怕,对普通人来说也是如此。那么,从那以后发生了什么呢?我认为,现在已经有足够的调查研究表明,普通民众并不太容易相信深度伪造,无论是电话还是合成媒体,它并不会太改变大众的意见。人们并不愚蠢。我认为人们很快就习惯了模型。我认为仍然很难判断,嘿,这段文字是ChatGPT还是Claude写的,除非它说“当然”或“啊”。
主持人: 是的,你曾发推文说,两者之间的区别……
Nathan Benaich: 我实际上是前几天才注意到的。有人写了这段文字,然后由ChatGPT编辑,它说“当然”。我想,这个人肯定不会这么说。而Claude以“啊”而闻名。是的,除非有这些痕迹,否则很难分辨。
我认为另一个原因是技术。我认为旧金山的技术人员显然生活在一个泡沫中,而且有点技术乌托邦式的想法。我认为他们低估了现实世界中技术扩散和应用中存在多少人力惯性。在我们的工作中,有很多次我们会遇到一家公司,它向你描述行业中的问题,但这并不是因为该行业无法获得解决其问题的技术。
更多的是人们不想使用它,或者存在抵制采用的惰性。行业或制造业中的很多东西都相当于笔和纸。你可以使用SaaS,但实际上并没有发生。所以我并不确定,如果出现AGI,所有这些公司都会在一瞬间完蛋。
我不知道世界能否像板块构造那样快速发生转变,因为人的惰性是真实存在的。
主持人: 是的,对于任何收听节目的听众来说,两位风险投资家正在讨论“氛围”。是的,这感觉像个推特笑话,但不是,这是一个正在进行的严肃播客。谈论基础模型,感觉它一直处于行动的核心,并且从AI 2024的状态来看,你如何看待目前基础模型的研究现状?
Nathan Benaich: 是的。因此,我的意思是,主要的转变是,我们首先从单一模态开始,就像语言一样,输入文本标记,输出文本标记。然后我们开始进行两种模态,例如文本加图像,称为视觉语言模型。这对于促进机器人技术以及其他所谓的具身人工智能的复兴非常强大。
然后我们现在可能添加第三个维度,即音频,因为图像和视频通常带有联合音频,这可能描述了单词。所有这些模态都很好地结合在一起,并且使用所有这些模态训练的模型可能更强大。所以,一个转变就是向多模态的增长。LLaMA有,Meta的LLaMA有,Anthropic有,并非所有模态都有。OpenAI在这方面也是如此。
我认为有趣的是,中国12个月前似乎没有参与这场竞争,但现在积极参与其中。他们的模型,如阿里巴巴的通义千问以及这家来自量化对冲基金的衍生公司DeepSeek,它发布代码模型和其他模型,实际上对开源做出了非常活跃的贡献。在一些视觉语言模型基准测试中,它们的性能非常好。
主持人: 他们仍在产出优秀的产品。有趣的是,他们决定成为非常强大的开源贡献者。几周前,我们邀请了来自Hugging Face的Clem参加了这个播客,我们讨论了这个问题,但原因尚不明确。
Nathan Benaich: 他不知道,我可能也不知道。他是开源之王。但确实很有趣。西方公司都在使用它们。我认为截至一两周前的数据显示,从他的平台Hugging Face下载的Llama衍生模型可能超过5亿个。我认为Qwen也在快速增长,这是这场辩论的一部分。
另一部分当然是OpenAI、Anthropic、Google DeepMind和Meta(作为主要竞争者)之间持续的竞争。一方面,可以说各模型的能力差距似乎已经缩小。从各种基准测试来看,对于非专业观察者来说,这些差异似乎越来越深奥难懂。除了“感觉”和个人偏好之外,差异似乎很小。消费者对某个模型有偏好,但尽管差距缩小了,Meta却提供了一个庞大的系统免费赠送,这本身就很有趣。
对这种情况的一种讽刺性解读是:你可以看看一年前的格局——谁是第一,谁是第二,谁是第三。然后,如果你删除了Twitter,并且整整一年都没有阅读任何机器学习新闻,你就可以重新打开它,看到基本上相同的情况。事实上,我认为今天Ramp Data发布了一份报告,该报告分析了其企业客户的信用卡支出,并细分了客户使用的模型。他们声称存在一些碎片化现象,并且正在使用更多模型,这表明竞争激烈。
然而,当你将所有这些正在使用的模型的制造商加总起来时,仍然显示约80%的市场份额属于OpenAI。这一比例没有变化,在我看来这并不像是碎片化,而是垄断。我认为这是主要问题之一,这可能也与“感觉”方面有关。这有点像这番谈话中百事可乐与可口可乐的主题。虽然两者味道相似,但将可口可乐的消费者转化为百事可乐的消费者非常困难,这种情况根本不会发生。
主持人: 你刚才谈到了Llama。我认为在报告中的某个地方,你用了一句非常有趣的话,称扎克伯格为事实上的开源救世主。你对Llama的看法如何?你认为他们为什么要这样做?以及它的影响是什么?
Nathan Benaich: 是的,我的意思是,这可能是上市公司长期以来最佳的投资回报率交易之一。基本上,图表显示,从元宇宙发布以来,公司宣布他们将在元宇宙投资多少亿美元,到最终表示我们将停止开发元宇宙,当时的股价一直在下跌。各种股东都写信敦促他们停止等等。这导致Meta的市值减少了大约6000亿美元。一旦他们从“我们不再开发元宇宙”转变为“我们将开发开源AI”,你就可以看到一个趋势,从低谷到高峰的市值增长可能达到了1.2万亿美元。
你可以认为是否有人使用这些工具并不重要,但股东价值的巨大增长非常令人印象深刻。已经有很多下载量,许多公司正在使用Meta的底层架构或至少使用预训练模型作为下游任务的基础。我认为这非常有用,并且可能还会继续有用。关于它是密集型还是稀疏型等等,有一些实现细节,但我问自己的问题是:好的,如果Hugging Face上有5亿次这个开源模型的下载,他们也在投入大量资源,为什么OpenAI和Anthropic的收入还在持续飙升?
开发人员和公司似乎仍然更青睐提供更多便利性、可靠性和速度的封闭模型,而无需担心额外的复杂性。一个有些缺陷的类比是,居住在西方,特别是中产阶级及以上的人倾向于购买iPhone。我不记得最近添加的任何人的电话号码不是iPhone。iPhone提供了一个完整的、无缝的体验;它运行良好,并且总是在更新。在我看来,这非常类似于OpenAI。另一方面,Android允许分叉和定制,但是人们似乎不再那么使用这些功能了。
开源的挑战还在于谁来运行它,如何实现广泛分发,以及谁来管理推理。当你看到像谷歌这样的公司时,他们有自己的模型工作,并且可能会优先考虑这一点。亚马逊也有它的Amazon AGI,已经伪收购了Adept和其他公司来实现这个目的。我不确定考虑到他们与Anthropic的关系,他们是否会托管开源模型。与此同时,微软与OpenAI处于持续的“亦敌亦友”状态,这表明他们可能不会在托管方面投入太多资金。
那么,谁来支持开源工作呢?可能是Databricks。Databricks和Snowflake,以及更多类似的公司,可能会成为开源的推动者,但正如我们所看到的,驾驭这个领域相当棘手。
主持人: 我想扎克伯格几个月前说过,他不会将此发展成为Meta的企业业务。是的。顺便说一句,他们曾经做过,对吧?他们开发了一款Slack竞争产品好几年。是的,Workplace,我认为是吧?是的,Workplace,没错。所以,Meta运行一家企业业务。
Nathan Benaich: 是的,这似乎是,我不知道,很难给他提供战略建议,但似乎很可惜他们没有云业务,如果他们愿意的话,至少可以向客户提供服务。但我确实认为,最终这还是回到了Facebook Meta的核心业务广告。我认为在他不久前的Meta Connect演示文稿中,他提供了一些关于消费者点击率提高的统计数据。而且提升幅度很大,大约在7%到10%之间。他们在上个月投放了数十亿次广告。所以这就是目前的投资回报率。
主持人: 你刚才提到基础模型实验室的收入飙升。这与去年相比也是一个很大的区别或显著的差异。似乎基础模型,许多人认为永远不会赚很多钱,实际上正在赚钱。
Nathan Benaich: 是的,这是一个主要因素。我的意思是,可能也包括我。我认为任何告诉你,“我将发布一款产品,它将在一年内创造数十亿美元的收入”的人,都很难让人相信,对吧?因为这种情况从未发生过,但这次却发生了。所以这是第一个因素。
然后第二个因素是,这些模型运行起来成本非常高,根本没有利润空间。这一点似乎正在发生一些变化,无论是像一年前那样最昂贵的模型到现在的成本下降幅度,还是其他原因。我不知道;最昂贵的模型可能是每百万个token 60美元。而现在最便宜的可能只有每百万个token 0.06美元。智能程度不同,但差距并不大。
所以我认为,大多数我谈过话的、在改进推理方面一线工作的人说,随着我们改进一些事情,比如知道要提供什么样的预训练数据以及课程学习的概念,我们很可能会以更低的价格和更小的模型获得类似水平的智能。这个上学类比很重要;你10岁的时候不会学习博士级别的物理学;你首先学习的是更简单的东西。
此外,还有一些方面,例如如何改进训练后的模型,包括应该提供什么样的示例。鉴于此,我认为我们可能忽略了在一般讨论中包含这一点。在ChatGPT和AI超级火爆之前,在这个领域实际工作的贡献者并没有那么多。我们在之前的报告中包含了一些来自不同公司的资料,但数量很少,比如,全世界有10万名机器学习工程师,或者100万名机器学习工程师——非常小的数字。
现在,我认为所有那些多年来从事广告优化、基础设施优化和DevOps的人——基本上所有这些工作都是为了让软件运行得更快——现在都专注于让AI运行得更快。这些人非常聪明,他们无疑会发现AI的一些问题,而架构师们可能并不擅长这些问题。所以,我认为这也在推动成本降低。
主持人: 价格更低。你曾经引用过一张图表,它显示了最终应用程序粘性的一些改善。
Nathan Benaich: 企业级应用,是的。方向上来说,它显示2022年群组的一年后留存率大约是43%。而2023年群组12个月后的留存率大约是65%。这相当可观。
我们还展示了季度账单,表明各个客户每个季度在AI产品上的支出。这个金额大约翻了一番,或者至少增长了50%,这反驳了这仅仅是一个演示,人们并没有真正使用它的说法。
在下一张幻灯片,或者非常接近下一张幻灯片的地方,我们有来自Stripe的数据,我去年一直在寻找这样的例子。现在我认为已经非常清楚了。它基本上考察了Stripe上100家最有前景的SaaS公司和100家最有前景的AI公司(2020年前或2020年后成立)。
然后它绘制了这些公司从在Stripe上的首次销售到达到特定收入目标所花费的时间。比如,在生成式AI之前——我认为2020年显然不是生成式AI时代——但在2020年之前,大约需要12个月的时间。
主持人: 我记下了这句话,因为它非常引人注目。因此,平均年收入超过3000万美元的AI公司需要20个月才能达到这个目标,而同样有前景的SaaS公司则需要65个月。
Nathan Benaich: 太疯狂了。是一年半对五年。是的。我的意思是,这太不可思议了。你可以争辩说,任何增长如此迅速的东西都会下降得如此迅速。但我的意思是,我们能够达到这个程度已经很了不起了。我不确定我们会下降得那么快。所以我认为这真的很引人注目。
而且它们的国际销售速度也快得多。这是我们没有包含在其中的另一部分。我认为兴趣如此之大,以至于我认为预期是,我们会在任何地方立即看到这个结果。但现实情况是,技术需要时间来传播。像用户行为这样的模式需要时间来改变。
我认为,当你观察某些人群,比如年龄段时,人们对事物的接受程度大相径庭。你知道,老一辈的人,当你向他们展示像ChatGPT的语音模式这样的东西时,会觉得它很神奇。而使用语音笔记和文字转语音的年轻孩子则觉得它完全正常。
所以我认为,对于我们来说,在我们仍然习惯使用谷歌的现有环境中,我们花了大量的精力训练自己使用谷歌,因此很难转换。但是,如果你身处需要快速学习新知识的环境中,就像我们每天都在做的那样,当你只是面对谷歌时,这将会非常具有挑战性。但是,如果你使用生成式搜索解决方案,它就会快得多。
然后我认为我们可以讨论头像和视频方面的内容。
主持人: 我们已经讨论了基础模型,我想,你知道,采用率以及所有这些事情,但就应用程序和所有这些事情而言。所以这是你感到兴奋的一个领域。
Nathan Benaich: 是的,我认为一个很好的试金石是,如果你与一位知识渊博、聪明但不是AI领域专家的会面,他们会说:“嘿,我为什么应该对此感到兴奋?有什么很酷的地方?你给他们展示什么演示?”对我来说,我给他们展示的演示是语音生成,因为我认为它基本上已经解决了。它很神奇。这以前是不可能的。
我的意思是,Deep Speech 2 是大约10年前写的,这是百度发表的一篇论文,所有这些作者现在已经创立了像Anthropic这样的公司,领导NVIDIA的团队等等。这是第一篇真正展示深度学习语音缩放规律的论文,它证明了将模型扩展到大型高性能计算集群以及使用更多数据、更大的模型和更多参数会导致损失更低。
现在,10年过去了,如果你想要完美的效果,你可能只需要几分钟就能克隆你的声音,大约需要30分钟左右阅读任意内容。你只需坐在会议上,问:“你想让我说什么?”你只需输入,它就在那里。太神奇了。将这种能力与你的头像结合起来,无论是视频还是通过电话,都感觉像魔法一样。
我认为这对我来说是最重要的事情:它就像经典的“等等,为什么”图表,展示了人们如何看待技术进步。你最初可能会看到它处于这个1%或2%的复合年增长率曲线,认为它只是缓慢地发展。然后你遇到你无法看到的疯狂的障碍,直到你真正到达那里。
现在感觉就是这样,这就是为什么在1月份年初我们对该报告进行了为期五年的回顾,询问我们今天拥有什么,我们基本上认为是理所当然的。如果你在10年前我开始投资或你开始投资的时候向某人展示这一点,他们会说这简直是魔法。我认为这很难反驳,这种进步确实令人难以置信。当你开始对所有事情感到厌倦时,记住这一点很重要。
主持人: 没错。你知道,也许可以戴上投资人的帽子,思考一下应用,想想你最近在寻找什么,对什么感到兴奋?
Nathan Benaich: 是的,我想说我正在寻找经典的东西,比如现在什么还不是共识?人们不相信什么?什么已经被尝试过了?他们可能会说,“我知道,这不会再奏效了。” 但出于某种原因,你认为它会在两三年后奏效。显然,如果你在三四年后错了,那就意味着时机完全错误等等。所以,带着这种视角,就像五六年以前我对人工智能和生物技术感到兴奋,在那里做了一些投资。欧洲的国防也很有趣,它在美国的出现早了几年,但在乌克兰战争之前,并没有那么多,现在越来越多。
主持人: 你的意思是,这个理论还没有完全展现,但它已经不那么具有反向思维的特性了?
Nathan Benaich: 是的,它不那么反向思维了。每个人都在谈论它。我们可以讨论投资者是否真的在向公司投入资金,我认为这种情况并不多见,除了美国那些大型的潜在赢家之外。
仅仅一两年以前,机器人技术在市场上仍然是一个不起眼的存在。现在,随着视觉语言系统和其他技术的发展,它就像经历了文艺复兴一样。所以我现在尝试问自己,下一个是什么?我还没有很好的答案,但我确实认为,在消费者和准专业人士领域可以构建的产品数量远远超过你在企业中看到的。
在企业中,它就像搜索、检索、总结以及针对各种任务进行某种推理。我不喜欢“自主代理”(agentic)这个词。为什么?好吧,我只是觉得它太技术化了。我实际上和一位消费级生成式AI产品的首席设计师讨论过这个问题。他说,对我来说,一项重要的任务是向普通人展示它,如果他们看到界面,他们应该知道如何使用它。
孩子们谈论“自主代理工作流程克隆”(agentic workflow clones)可能意识不到,普通人会觉得这个概念很可怕。这不是人们想要使用的产品。所以,重要的是要跳出你的圈子,尝试理解如何与真实的人们产生联系。这些术语太过于流行语化了。
主持人: 但你刚才说,消费者领域似乎更广阔。
Nathan Benaich: 是的,现在语音克隆非常容易,你能用它做什么?我认为存在各种各样的消费者、社交和生产力应用程序。现在你可以构建很多小型微型应用程序,而且基本可以免费编写代码。也许你可以向最终用户公开一些这样的功能,这样他们就不会陷入仅仅被动接受大型科技公司每月发布周期的怪圈。比如,为什么我不能自定义我的设备?为什么我的相机这么笨?
所以,我正在尝试探索这一点,并且对起始产品不做太多评论。相反,我想要找到那些有主见、品味好、并且擅长产品工程和设计的人,而不是那些非常专注于人工智能的人。我相信我们现在已经拥有了基本要素,可以从过去15年来SaaS公司所享受到的所有好处中获益。这包括能够快速验证假设并启动服务来测试想法,而不会消耗掉整个种子轮资金。
我回想起我刚开始的时候,当然也可能包括你刚开始的时候,你可能会消耗掉整个种子轮资金只是为了弄清楚你的想法是否可行。这意味着你几乎没有空间去测试某个可能关心你想法的人的假设,如果你失败了,感觉就像游戏结束了。
主持人: 很有意思。所以,总结一下,你认为人工智能已经摆脱了深度科技的那种阶段,现在你实际上不需要成为人工智能工程师就能创建一家人工智能公司了?
Nathan Benaich: 差不多是这样,是的。在初期是这样,是的。我想,如果我要做些什么,我会真正去看看我能用哪些现成的系统,你知道,用一些吸引人的提示,一些权宜之计,无论什么,然后用它尽可能多地测试假设。然后,如果可以的话,用一些第三方系统开始扩展你的产品,那就去做吧。然后,也许当你达到需要评估单位经济效益的阶段时,你可能会了解到足够多的用户行为,从而能够看到,嘿,我的模型必须为我的客户回答和解决的任务分布,可能只有10%的部分需要这个昂贵且吸引人的模型,而其余的我可以使用其他东西来完成。直到我们达到智能廉价到可以随意使用的程度,你最好剥开洋葱一层一层地看,说,嘿,对于这个,我将使用这个模型,那个使用那个模型,然后对其进行优化。也许到了那个时候,你需要一个更接近底层的人,可以为你优化你的技术堆栈,并真正提高你的经济效益等等。但我认为,在此之前,要抓住免费午餐的机会,是的。
主持人: 你刚才提到了机器人技术,作为一个你曾经投入时间的领域,你认为在过去的几个月里,当你询问风投公司时,它似乎是唯一一个大家兴奋的领域,人们似乎认为机器人技术的重大时刻已经到来,你对此怎么看?
Nathan Benaich: 是的,我认为这个名称可能属于具身人工智能(embodied AI),我第一次听到这个词大概是通过Wave公司的Alex Kendall,他一直在Wave工作了大约七年时间,一直在宣扬这个理念,也就是完全端到端学习的机器人系统,这些系统不仅在数字世界中运行,而且具有某种物理实体,可以导航这个世界。
今天最受炒作的体现就是人形机器人。我认为它还不是一个大众风投产品,但肯定每个人都在谈论它。它的一个衍生品是机器人基础模型,例如一些通用的系统,可以控制不同的机器人硬件,无论是四足机器人还是两足机器人或无人机。也有一些公司专门从事模型方面的工作,它们以非常高的价格筹集了巨额资金。
然后可能还有更实际但有用的应用,那就是仓库机器人技术。我认为已经有10到15年的时间,公司一直在努力训练拣选和放置机器人,并且通常会遇到不太想要它们或没有投资于基础设施层的客户,对他们来说,基础设施层将是能够移动包裹的仓库自动化系统。这些系统变得越来越受欢迎。
疫情之后,劳动力问题确实是一个巨大的挑战。现在,你不再需要为每个客户训练一个单独的模型,你不再需要说,“嘿,给我你的数据,我将标注所有这些不同的产品,并训练一个专门在你环境中工作的系统。” 越来越多的情况表明,你可以使用这些视觉语言系统之一来训练一个可以在所有客户中工作的通用系统。这是一个非常重要的突破,因为上线时间以及因此而来的投资回报率都更快了。所以我很兴奋。
主持人: 从报告中看,你似乎不太喜欢硬件与人工智能的结合,比如各种各样的产品。
Nathan Benaich: 我认为这太难了。很难把握时机。即使在几年前,一些人还认为如果AirPods能为听障人士提供解决方案,或者能进行降噪等等,那就太好了。现在我们有了,但它并非出自一家初创公司。是的,AirPods太棒了。
然后,作为一家初创公司,要想与之竞争,你基本上必须打造一款比AirPods更好、功能更全面的产品,并与一家万亿美元的公司竞争。这类似于可口可乐和百事可乐之间的竞争——这很难竞争。所以,我不知道。我认为消费者对硬件的态度非常善变。
从这个意义上说,看到Meta眼镜和最近的Orion产品获得积极反响,真是令人惊叹。我不记得科技分析师和评论员对Meta的产品发布如此积极评价过。
如果苹果真的在削减Vision Pro的投入,那真是令人震惊。也许这是一个有趣的见解:人们喜欢这款眼镜,因为音乐很棒,即使AI很糟糕(据我从听到的反馈来看)。
所以我认为你必须攻克一种日常行为,达到足以与苹果和其他公司竞争的程度,然后你也许有机会赢得更多围绕实体产品的体验。是的,就像那些配件——它们是为寻找问题而存在的解决方案。
主持人: 我对人工智能的地缘政治,特别是与监管以及所有相关事项的交集仍然很感兴趣。报告中有一些内容。我们还会在节目说明中加入该报告的旁白视频。你提到了我之前没有意识到的东西。例如,在欧洲,由于欧盟法案,实际上某些产品是无法获得的。是的。
Nathan Benaich: 是的,如果你想回到过去,就乘坐航班吧。我的意思是,我认为直到5月份,Claude在欧洲都无法使用。显然,OpenAI没有计划发布高级语音模式。我记得在6月底之前作为欧洲居民曾要求不将我的Facebook数据用于生成式AI产品。
然后XAI与爱尔兰政府发生了一系列冲突,原因是他们在Grok模型中使用了当地公民的训练数据,所以他们干脆放弃了。我根本没有使用它。是的,这很艰难。我甚至在推特上看到一张关于苹果美国智能功能的热门图片,它突出了其高级功能,而在欧洲,它却像,“我们会告诉你什么时候有电话”之类的。
这对比非常鲜明。与此同时,至少从我们在线阅读的内容来看,似乎一些参与欧盟人工智能法案(EUA-IAC)的个人出现了买家后悔的情绪。他们可能过度扩展了。德拉吉报告提到,嘿,我们的经济增长基本上恢复了,因为我们立法过多,而投资不足。这就像经典的掩面而叹。
主持人: 你看到有什么迹象表明,“我们可能过度监管了”?这是否足够强大到足以让情况有所改变,或者惯性实在太大?
Nathan Benaich: 我认为惯性太大了。马克龙已经这样说了一段时间了,但法国是开源等方面更大的捍卫者之一,但我认为情况不会有太大改变。我认为英国有一个很好的机会,我的意思是,我认为脱欧是一个糟糕的主意,但至少它的价值在于他们可以制定自己的政策,他们在疫情期间批准疫苗的速度很快,做得很好。这并不是一款很好的疫苗,但审批流程很好。因此,理论上他们可以利用这一点来在人工智能领域具有竞争力,但同样我认为这个国家还有其他各种问题需要解决,这些问题可能比解决通用人工智能(AGI)等问题优先级更高,而其他国家则似乎完全处于混乱状态,基本上没有增长,老实说,这让我感到沮丧,而且每隔一周或更长时间,推特上就会有人说:“我很高兴地宣布我将离开伦敦去纽约”之类的,我没有看到很多人往另一个方向走。
主持人: 鉴于上述情况,欧洲的人工智能领域似乎非常活跃。是的。
Nathan Benaich: 是的,我的意思是,我认为那里有非常棒的贡献者。这是一个没有真正改变的经典叙事:许多顶尖的人工智能贡献者要么是欧洲人,要么是在欧洲度过了大部分教育生涯,包括诺贝尔奖获得者。你知道,许多优秀的公司都设在那里,并会在那里开设办事处,因为那里人才济济。欧洲多年来也创造了一些颇具影响力的深度科技公司,例如ASML、诺和诺德或Spotify等等,对吧?所以,我们有能力做到这一点,但由于利益集团的联合,我认为这变得更加困难了,它不像一个统一的地方,统一的权威和单一市场、更敢于冒险的心态和文化,很难改变。
主持人: 是的。顺便说一句,我不知道我们前面是否提到过,人们可能不会立即从你的口音中推断出来,但你住在伦敦,Air Street也在伦敦,你已经在那里待了很多年了。
Nathan Benaich: 是的,我出生在欧洲,也在那里接受教育。除了在美国读本科,但我认为自己就像漂浮在美国和欧洲之间,为工作奔波。
主持人: 是的,你刚才描述的是发自肺腑的……
Nathan Benaich: 是的,第一手的经验。并试图尽我们所能去改变它,无论是试图让英国政府推动更好的政策,以促进大学研究成果转化为公司。如果我们想要在能源、人工智能、国防等领域拥有主权,我们就需要创造一个积极的引擎来组建这些公司。多年来,这在英国和欧洲并非如此。我们最近的工作是试图推动英国国防部和其他欧洲国防组织进行更好的采购,以试图让更多的初创公司和科技公司参与其中。是的,我们会努力施加压力,因为我们相信自己拥有洞察力,并有一些有价值的观点和一些背景资料可以分享。而且我不是党派人士,我也不是民族主义者。我会去机会所在的地方。所以我希望这总是能让人觉得,这只是一个生活在这个体系中的人发出的真诚意见,希望看到它有所改善,如果它没有改善,那就太让人悲伤了。
主持人: 感觉美国有时也可能会出台一些糟糕的法规。并不是完全不受监管影响的。
Nathan Benaich: 是的,是的,当然,当然。但我认为金融服务业、科技业、进步以及人们创造更美好生活都存在着大量的兴趣。我认为这就是人们最初来这里的原因。第二点,我认为只要好人仍然想来这里,无论这个国家出台什么政策,这都很难抗衡。这种吸引力我认为仍然会让我对美国持乐观态度。如果这种情况开始改变,人们开始说他们不想再来了,那么我认为就出问题了。
主持人: 我们还有什么没谈到的?哦,对了,你的预测。
Nathan Benaich: 预测是我们工作中一个重要的方面,主要目的是让我们自己承担责任。我们想证明我们的努力不仅仅是营销活动;我们什么也没卖。相反,这是在分享我们对事物发展方向的看法。每年,我们都会做出大约十几个预测并对其进行评级,力求公正,并提供证据来证明我们哪里是对的或错的。平均看来,我们的准确率大约为50%。
几年前,我们做出的一个重要预测是关于ARM和英伟达的合并。我们预测由于竞争方面的担忧,此次合并不会成功,最终,大约一年后,这一预测被证明是正确的。去年,我们做出了类似的预测,即竞争管理局(CMA)和联邦贸易委员会(FTC)等监管机构可能会调查大型收购和重大投资,例如微软和OpenAI或Anthropic和亚马逊之间的投资。这种预期的审查似乎也在逐渐实现。
此外,我们长期以来一直对替代芯片公司持悲观态度。我们认为该行业将面临整合、倒闭或各种形式的收购。虽然其中一些确实发生了,但并没有达到我们最初预期的程度。我原本预计会对市场造成更严重的影响。
主持人: 我想,正如你在报告中概述的那样,Cerebras的IPO将会很有趣。
Nathan Benaich: 是的,我的意思是,我做了一个临时的幻灯片,仅仅是因为这是描述我对替代芯片公司感受的最佳方式,那就是说,好吧,在过去几年里,有多少亿美元投资于英伟达的竞争对手?有大约七家私营公司在这些企业上投资了60亿美元。我们将当时融资轮中公布的金额除以当日英伟达的股价,计算出股份数量。然后,我们将过去六年中,用这60亿美元可以购买的英伟达股份数量相加。与你对这篮子英伟达替代竞争对手的投资相比,今天的价值是多少?基本上,这60亿美元将变成大约300亿美元,而买英伟达股票的话,价值将为1200亿美元。相当于增值了20倍。
所以我真的不认为这会有什么结果。我认为英伟达肯定是真实的,我们也有一些有趣的数据,但问题是这家公司产品的寿命有多长。我们每年都会绘制在公开的开源AI研究中使用的特定芯片组的使用情况图表,我们分析了数万篇论文。如果你将所有使用英伟达芯片的论文与所有使用TPU、FPGA、ASIC、苹果和华为芯片的论文加起来,所有英伟达论文的总和与其他所有论文的总和之间存在大约11倍的差距。去年是19倍,所以现在下降了一点,主要是因为谷歌TPU的使用量增长了约5倍。但差距仍然巨大。
另一个有趣的点是研究人员正在使用的芯片类型,这表明它们的相关性持续时间。例如,去年最受欢迎的芯片是V100,它是在六七年前发布的。我们可以绘制V100论文数量随时间的增长情况;它在去年达到顶峰。如果你非科学地完成高斯曲线,那么相关时间的长度约为10年。这家公司每年在芯片方面发布两次新产品,甚至不包括互连、NVLink和其他东西。每一代产品都有十年左右的实用期。你怎么才能打败它?这真是令人惊叹。
所以,是的,我以为芯片领域的损失会比我们看到的要多得多。有时我们会重复预测以加强我们的信念。
主持人: 人们应该看看这个。那是报告中的第86到94、95页幻灯片。好的,这是另一个预测。还有什么?
Nathan Benaich: 今年我们预测会出现某种爆款应用,比如,我不知道,比如苹果应用商店前100名或前50名,它是完全通过生成式方式编写的。所以,某个不懂编程的家伙写了这个东西,然后它就病毒式传播了。有点像《Flappy Bird》,但它是生成式的。是的,太棒了。鉴于围绕着“我花了15分钟就写了这个Mac应用”的炒作有多少,我的朋友们也在这么做。这太疯狂了,它也让我想要尝试一些东西。然后,我们大约一年前也预测说,第一首登上Billboard排行榜的生成式音乐曲目将会出现。我认为这实际上发生在德国的Spotify上。只是一些喜欢的片段。
主持人: 还有什么?对人形机器人的投资水平将会下降,因为公司难以实现产品市场匹配。
Nathan Benaich: 是的,简而言之,我认为是自动驾驶。到目前为止的进展看起来令人兴奋。演示看起来不错,但我们显然没有看到幕后发生的一切。我认为这将是一场漫长的拉锯战。
主持人: 多年来,你对自动驾驶领域进行了相当多的报道,对吧?
Nathan Benaich: 是的,一次又一次的延迟,一再承诺。但现在是真的了。现在你飞到旧金山,Waymo就非常棒。我的朋友们把他们三岁的孩子放在里面,那个孩子管它叫机器人汽车。
主持人: 周末乘坐它很令人兴奋。是的,这简直令人难以置信。我的意思是,对于收听节目的听众来说,这可能是显而易见的,他们住在旧金山,但我时不时会去旧金山,也许这已经成为一件很平常的事情了。但这确实是一个例子,未来已经到来,只是分布不均。是的,是的,是的。这种体验是多么令人难以置信,多么令人着迷,但在一段时间后,又变得很平常。
Nathan Benaich: 感觉就是这样。是啊,很无聊,是啊。我就想想那些在那个时代长大的孩子,然后当他们成为青少年的时候,就会想,为什么有人在开我的车?比如,从我的车里滚出去。我的意思是,孩子们现在都用Uber,他们不开车。但下一代,我根本不想让别人开车送我。这是我的空间。
主持人: 我的应用已经成为苹果应用商店的排名第一的应用了。
Nathan Benaich: 所以,这是一个非常酷的转变。而且,我的意思是,也许另一个对比点是我们在2018年和现在的状况,那就是视觉常识的普遍能力。我可以给你看一个场景,并描述其中发生的事情,它现在基本上已经解决了。机器可以详细地描述这一点,并且很好地捕捉到细微之处。
但不久之前,在2008年,视觉问答(Visual QA)非常困难。如果你向计算机系统展示一张婴儿拿着牙刷的照片,它可能会错误地说一个年轻男子拿着棒球棒之类的东西。推特上有关于此的模因,突出了其易于被欺骗,并且非常脆弱。
我认为是通过GPT-2,OpenAI开始证明你可以将图像视为一系列像素。这种方法允许逐像素处理序列,而不是使用图像块。模型能够以某种方式学习以这种方式进行补全。我还记得几年前我们在报告中加入这一见解时;感觉这是第一个迹象,正如Arvind Narayanan(你在那时编辑了这份报告)所指出的那样,这是一种通用架构,其可扩展性远优于卷积。
所以任何你可以建模为序列的东西,结果证明这东西都能学习。
主持人: 你知道,显然,我们报告的一个惊人之处在于,它是一种最终的信噪比产品,所有内容都是实质性的、经过验证和审查的等等。所以,你知道,这就是它如此优秀的原因之一。那么,在你进行这项工作的过程中,我假设你一直在阅读、学习、倾听各种信息。有哪些,我不知道,两三个你最喜欢的消息来源,人们应该去查看、了解,你经常从那里获得很多有趣的东西?
Nathan Benaich: 是的,我的意思是,我会厚颜无耻地说,比如Twitter或X。我认为这太棒了。我的意思是,我的大部分Twitter关注都是机器学习领域的,所以这些东西会不断出现。但我认为,如果你对半导体感兴趣,像Semi Analysis的Dylan Patel一样,他做得非常出色,深入探讨了这里究竟发生了什么以及大型行业动态。这两种是我非常喜欢的。然后偶尔会有一些来自关键人物的文章。我认为Dario最近的文章非常有思想,写得很好。我会尽量避免那种炒作性的东西,比如,我们会灭亡之类的。但除此之外,我认为你必须关注Twitter上的研究人员。他们有很好的独到见解。那基本上就是机器学习的市政厅。
主持人: 有点不可思议,对吧,Twitter一方面像个垃圾场,另一方面又是AI的跳动心脏,研究人员在所有人面前实时聊天。
没有它不行。是的,太神奇了。好了。太棒了。再次祝贺这次大规模发布,你知道,这太棒了,我们感谢你为行业所做的一切。
参考资料: https://www.youtube.com/watch?v=c_87fwKmkjM,公开发表于2024-11-14
👇关注公众号后设🌟标,掌握第一手AI新动态