作者|硅谷徐老师
翻译|宛子琳(OneFlow)
最近,我与在 OpenAI、Google DeepMind、Anthropic,Microsoft 等前沿大模型厂商工作或工作过的朋友进行了交流。聊了很多关于AI大模型的共识和非共识。我将其中一部分交流内容录成了两期播客,有兴趣的朋友可以去Podcast App收听。另外用小宇宙App收听并留言还有机会和嘉宾们互动。
AI Agent 智能体的真相和未来 |硅谷徐老师对话英伟达、DeepMind大模型专家(上)音频链接:https://guiguzaozhidao.fireside.fm/20220178
贫穷限制 AI 想象?|硅谷徐老师对话英伟达、DeepMind大模型专家(下)音频链接:https://guiguzaozhidao.fireside.fm/20220179
从左到右:硅谷徐老师,Jim Fan博士,戴涵俊博士
人工智能又一里程碑式突破,GPT-3红了 (2020年7月)音频链接:https://guiguzaozhidao.fireside.fm/gpt3
谢谢在苹果公司Siri研发领导郑同学的留言:”可以封神的一期节目”。上面第三个播客其实是我整整3年前录制的,这是华人社区第一次有把大模型的突破和OpenAI的故事带出技术圈的节目,可能是我心目中可以封神的一期,只可惜当时没足够多人注意到。
既然这期播客可以封神,我想贴一段真大神嘉宾Jim Fan说的几句让我事后反思不少的话。英伟达的Jim Fan是斯坦福大学的博士毕业生,师从李飞飞教授,如今在英伟达做资深研究员。他也是网络全球大V,亚马逊创始人贝佐斯是他的推特粉丝。J和我聊起OpenAI哪一个时刻对我们震撼最大时,Jim Fan提到:
GPT3算法在思维模式上是一个巨大震撼。与GPT3相比,ChatGPT只是一个小震撼。我觉得ChatGPT之所以是一个工程上的一个奇迹,是因为他们把那么多标注,标注的pipeline,还有更多的数据,以及 RLHF 是怎么调参的等等都做的特别特别好。GPT 3 发布的时候,我正在斯坦福读博三,自然语言(NLP)组觉得 NLP要完蛋了,有的人认为在学校里做 NLP 已经没有什么值得的了,也有人认为不走大模型路线就要落后了。
为什么斯坦福在2020年就有危机感,但谷歌一直到2022年12月,在ChatGPT/GPT3.5诞生后才真正有危机感。我相信谷歌的大牛们在2020年也看到了一场革命的到来。可惜谷歌高层一直没有把这场技术革命看成是对公司可能有existential threat(生死存亡)的革命。这不免令人唏嘘。
我最近正好写过一篇公众号:“AI时代的“仙童八叛徒”:重温硅谷创业精神“,专门讲硅谷的由来,以及当年的一个技术公司(仙童半导体)出走的人成就了后面几十年硅谷几乎所有的大厂。
谷歌(Google)在人工智能技术和人才上的积累一向遥遥领先,也就前几年DeepMind的AlphaGo击败围棋世界冠军,震惊世人。今天的大模型都是基于谷歌的Transformer模型。让我们拭目以待,谷歌能扛过这一波原本该属于它的AI时代,还是以OpenAI为代表的后浪拍前浪,谷歌前浪命该如此?
我和诸多AI大牛们聊天时发现,大家几乎一致认为当前的 LLM(语言大模型)也许能通过“预测下一个词元/单词”为实现 AGI(通用人工智能)铺平道路。虽然谈不上圈内所有大牛都有这个共识,但我个人已经把这点看成共识了。
但在大模型(LLM)领域内,许多关键话题尚未达成共识。这里我来记录一下我的个人预测,其实也就是我蛮同意的观点。
1. “前沿模型”将继续在性能上领先,而“开源模型“将通过生态系统蓬勃发展
OpenAI、Anthropic 和 Google DeepMind 旗下的前沿闭源模型(都是闭源模型)将至少在未来一年内保持领先地位。这种闭源和开源模型之间的差距有望进一步扩大,主要原因是前沿模型的开发者拥有庞大的 GPU 集群进行训练。
然而,开源模型仍将占据相当大的市场份额。对于许多垂直应用场景而言,并不需要前沿模型所具备的强大能力,这为 LLaMA2 等开源模型提供了充足的发展空间。Meta 的LLaMA2 在构建一个独一无二的生态系统,有望在开源模型领域占据主导地位。这类开源模型将为许多传统企业提供机会,企业无需将私密数据发送给前沿模型厂商,就能利用自身数据建立护城河。
2. 智能体(Agent)
智能体是能够做出决策并利用计算器、搜索或执行代码等外部工具的大模型。智能体在研究领域非常热门,但如要成为主流技术,则仍需基础性能改进。没有这些改进,企业将难以将智能体产品化。我预计在未来的3至5年内,智能体将成为颠覆性企业产品背后的核心技术。在企业广泛应用该技术之前,我们已经能够欣赏智能体在“斯坦福小镇”游戏中展现的强大能力。正如 NVIDIA 的高级研究员 Jim Fan 在推特中的评价:“这是2023年最令人振奋的 AI Agent 实验之一。我们经常谈论单个LLM 的新兴能力,但从更大的规模来看,多个智能体的兴起更加复杂且更令人着迷。一群 AI 能够演绎整个文明的进化。”
3. 多模态
多模态是训练大模型(LLM)的下一个黄金矿区,但它也给整个流程和算法带来了众多挑战。似乎没有人质疑是否应该采用多模态,但有人质疑我们何时以及多久能够看到有意义的回报。这些专家认为,在不引入多模态的情况下,还有其他更便捷的方法可以将 LLM 基础模型推向更高水平。我听说一家前沿模型提供商已经对多模态基础模型进行了两次预训练,显然并没有快速取得成功的捷径。
4. 机器人技术
我们都期待机器人技术能够尽快取得突破,但短期内,该领域可能不会有重大突破。当前的生成式人工智能浪潮将在未来几年重塑白领职业领域。然而,在蓝领行业实现颠覆性突破就需要机器人行业的“ChatGPT时刻”。虽然这一天终将到来,但真正实现这一目标可能还需要相当长的时间。
5. 企业大规模应用大模型LLM存在的问题:在更广泛的人工智能行业中,有一些因素一直备受讨论,但今天仍然可能被低估:
实时推理有不小的延迟,这可能会阻碍 LLM 的应用,因为许多应用场景无法容忍即便几秒钟的延迟。
构建测试评估框架并不简单,甚至完全可能会阻碍 LLM 的应用。我在之前的博客文章《测试在 LLM 时代即为一切(Measurement is All You Need In the LLM Era)》中也强调了这一观点。
人工智能的突破更多地取决于组织文化和理念,其次是资本投入,然而令我惊讶的是对原始技能集的依赖程度并没有那么高。
人工智能即将颠覆无数行业。我对生成式人工智能和机器人技术对未来职业世界的影响充满期待。但是人类尤其是下一代,包括今天的在校学生们, 应该为即将到来的大变革做好什么准备?这一点在业界内是没有共识的,但是我的播客嘉宾还是给了一些很不错的想法,比如critical thinking的重要性。
我希望在不远的将来继续聊一下这个话题,也希望对这个话题感兴趣的同学们踊跃在小宇宙播客节目或者我的公众号留言。