(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
全文10,000 字,阅读约需25分钟
在最新一期播客中,AI代理公司Casetext的联合创始人兼CEO Jake Heller分享了一个引人入胜的创业故事。作为YC校友,Heller大约在11或12年前创立了Casetext。在最初的十年里,公司估值从零增长到1亿美元。然而,随着GPT-4的发布,仅仅两个月内,Casetext的估值就飙升至6.5亿美元,并最终通过与Thomson Reuters的交易实现了6.5亿美元的全现金退出。
这个成功案例生动地展示了一个正在快速发展的趋势:随着大型语言模型(LLM)能力的指数级提升,垂直人工智能代理正在成为下一代价值数十亿美元的SaaS公司的核心。人工智能技术正在经历一场革命性的变革,而这种变革正在重塑各个行业。
在播客中,Heller深入探讨了如何打造成功的垂直人工智能公司,以及如何克服行业内资深人士和怀疑论者的阻力。他的经验为那些希望在这个快速发展的领域中脱颖而出的企业家提供了宝贵的见解。
视频时间轴
01:40打造成功的垂直人工智能公司
06:05法律和人工智能的独特挑战
09:24 ChatGPT 律师的转折点
11:25寻找符合法律的产品市场
15:04进入深度创始人模式
20:40一步步走近即时工程
25:05超越 GPT 包装器
28:10力求 100% 准确率
30:48关于o1能力的思考
演讲文稿
主持人: 欢迎回到《Lightcone》节目。Jake,你有很多关于如何通过大型语言模型(LLM)创造真正价值的经验,我认为在YC的朋友中,你是最早意识到这是一场变革的人之一,不仅如此,你还敢于将整个公司押注于此,并且你是对的。欢迎你,Jake。
嘉宾Jake Heller: 很高兴来到这里。
1、成功经验分享
主持人: 我觉得Jake的故事非常酷,我们今天请他来,也是因为他的公司在垂直AI领域表现非常成功。如果你看看现在的很多创业公司,很多都是在构建垂直AI代理。我试着数了一下,YC最近一批中有几十家公司都是在做垂直领域的AI代理。而Jake是目前运行最成功的垂直AI代理的创始人,这也是到目前为止最大的一次收购,而且它已经在很多关键任务场景中得到了规模化应用。灵感来源于几个月前我们举办的一个闭门会议,Jake做了一个非常精彩的演讲,讲述了他是如何做到这一点的。我们觉得观众对这个领域感兴趣,能够直接听到一个成功的建设者分享他的经验会非常有帮助。那么,你是如何做到的呢?
Jake Heller: 首先,像很多事情一样,运气在我们这十年旅程中起了一定的作用。我们一开始就非常深入地投资于人工智能和自然语言处理,我们也和一些研究实验室保持着密切的联系,包括OpenAI的团队。当他们开始测试早期版本的GPT时,我们并不知道那就是GPT-4,但我们确实有机会提前体验到它。因此,在GPT-4公开发布的几个月前,我们公司所有人都签了保密协议,开始专注于这一技术。我永远不会忘记第一次见到它的情景。在大约48小时内,我们决定让公司里每一个人都从当时的项目转向开发基于GPT-4的新产品,我们称之为CoCounsel。
主持人: 当时公司有多少人?
Jake Heller: 我们大概有120个人。
主持人: 所以你们让120个人在48小时内完全改变了他们的工作项目?
Jake Heller: 是的,是的,全员都转向新项目。
主持人: 对观众来说,CaseText一直是在法律领域。你本身就是一名律师,你最初构建的是自己需要的工具,对吧?
Jake Heller: 没错。公司早期的使命一直是如何将最先进的技术带入法律领域。作为一名律师,我其实非常喜欢这份工作,但我最讨厌的部分是不得不与法律行业普遍使用的那些技术打交道。我还记得那是2012年,我在一家律师事务所工作。如果我想做一些非常简单的事情,比如用我当时新买的iPhone去Google上查一下电影放映时间,或者附近有没有素食可选的泰国餐厅,这都非常简单。但是如果我想找到一份可以证明我的客户无罪的证据,避免他终身监禁,或者找到能帮助我赢得十亿美元诉讼的关键法律案例,这可能需要我连续五天每晚工作到凌晨5点。我当时就想,一定有更好的办法。
主持人: 作为律师,你的工作流程是怎样的?你必须通读大量文件吗?
Jake Heller: 是的,几乎是这样。在我开始执业之前,一切都还没完全数字化。你会在地下室里,面对成箱的文件,一个接一个地读,试图在Pfizer或Google这样的公司中找到所有的邮件,看是否存在潜在的欺诈行为。还有,如果你想要找到案例法,在我那个时代之前,你得亲自去图书馆,打开书本,开始阅读。当时也有一些新的产品推出,是最早的基于网络的研究工具之一,但它们非常笨拙,很难找到相关的信息。你无法用 Ctrl+F 搜索,也没有这些现代化的功能。
我的情况有趣的地方在于,同时具备计算机科学的背景,所以让我感到很抓狂吧。我永远不会忘记,当时在律师事务所里,我在开发浏览器插件,用来提高我使用这些工具时的效率和效果。实际上,我离开律师事务所创业并申请YC的一个原因就是,我因为这些技术工作被总法律顾问批评了。他觉得,“你为什么把时间都花在技术开发上?” 而且当时还明确告诉我,律师事务所拥有所有的技术所有权。所以我决定做点不同的事情。
2、十年的历程
主持人: 你能给我们讲讲CaseText前十年的历程吗?尤其是法律和AI领域的独特挑战,特别是在大型语言模型(LLM)出现之前的时代。
Jake Heller:我从那段时间学到的一个经验是,当你创立一家公司时,可能一开始的方向并不完全正确。你可能有一个大致的方向,知道有一个问题需要解决,但找到解决方案可能需要很长时间。就像我们当时看到法律领域的技术问题非常严重,很多律师依赖内容进行研究和理解法律。所以我们想,我们可以做更好的技术,但问题是我们如何获取这些内容呢?我们花了几年时间尝试,正如Gary所说,我们试图让律师为案例法做注释,提供信息,像用户生成内容(UGC)网站一样。我们当时的偶像是Stack Overflow、维基百科和GitHub等开源或UGC网站。但这个策略完全失败了,我们无法让律师们贡献他们的时间和信息。我觉得这是因为这些是不同的群体,典型的维基百科编辑往往有大把的时间,可以无偿添加内容,而律师按小时计费,他们的时间非常宝贵,根本没有时间去为UGC网站做贡献。
主持人: 所以你们不得不转型,是吗?
Jake Heller: 是的,我们开始深度投资于当时还不叫“AI”的技术,实际上就是自然语言处理和机器学习。我们发现,我们不需要依赖UGC就可以复制竞争对手那些大型内容数据库的很多优势,甚至可以通过自动化的方式完成。与此同时,我们开始开发出一些用户体验,这些体验远远优于竞争对手。比如说,我们使用了类似Spotify和Pandora的推荐算法,这些算法推荐音乐的方式是分析这首歌与那首歌的关联,听这首歌的人通常也会听那首歌。同样地,我们也分析了案例之间的关联,法律案件引用早期的判决,形成了一个引用网络。我们找到了一些方法,能够帮助律师检查他们的工作,比如说,律师上传他们的工作后,我们可以告诉他们,所有谈论这个案例的人同时也引用了另一个案例,而你却遗漏了它。但是事实是,直到最后,直到CoCounsel的出现,我们做的很多事情在法律工作流程中都是相对渐进的改进。我们遇到的一个奇怪的现象是,当一个技术改进只是渐进性的改进时,客户实际上很容易忽略它。很多客户不会直说,但你会感觉到这种印象。你走进他们的办公室,试图推销一个产品,说这将改变你做事的方式,而他们心里可能在想:“我一年挣500万美元,我不想任何事情改变。”他们认为新技术可能会让生活变得更糟,或者至少没有好转的保障。
因为律师是按小时计费的,所以直到ChatGPT出现后,才有了真正的转折点。当时我们还在私下秘密地开发GPT-4,ChatGPT突然间面世了,全球的律师们都意识到,“天啊!我不知道这将如何改变我的工作,但它肯定会带来巨大的变化。”他们能感受到这一点。那些曾经说“我一年赚500万美元,为什么需要改变我的生活”的人,现在变成了“我一年赚500万美元,这肯定会带来变化,我需要领先一步”。这项技术本身真的改变了我们为法律从业者开发产品的方式,市场对技术的看法也发生了巨大变化。十年来,还是第一次,在我们公开发布基于GPT-4的CoCounsel之前,律师们就主动联系了我们,说:“我们知道你们在开发AI,我们需要掌握这项技术。你们能展示给我们些什么?我们可以做些什么?”我认为这是因为这次的改变不再是渐进式的,而是根本性的,他们再也无法忽视它了。
主持人: 我对你的看法是,创业就像是走进一个“创意迷宫”。创始人在一开始就像在迷宫里摸索,不断与客户对话,了解哪条路行得通,哪条路行不通,是否该向左还是向右走。而通常情况下,创业者会走到死胡同,不得不进行转型。我觉得你的故事非常有趣,因为你在一开始可能接近了一个无法带来产品市场契合度的方向,但随着大型语言模型的出现,迷宫发生了变化。你比任何人都更接近产品市场的契合度。
Jake Heller: 这就是为什么有人说我是第一个“登上月球的人”。每次我们走过迷宫的一段路时,都觉得我们离产品市场契合度更近了。即便是在我们发布CoCounsel之前,我们已经有了实际的营收,也有了真实的客户,他们对我们评价很高。我一直想到Mark Andreessen在2000年代初写的一篇文章,标题是《唯一重要的事情》。他在文中描述了当你达到产品市场契合度时的感受,比如你的服务器宕机了,你无法及时招聘足够的支持人员和销售人员,你会一年到头在Bucks餐厅吃饭(这家餐厅是很多风投公司常去的地方),媒体会争相报道你。我记得早期职业生涯中读过这篇文章,觉得它有点夸张。
但当你发布了CoCounsel后,真的就是那样,对吧?。我们的服务器宕机了,我们根本无法快速招聘足够的支持人员和销售人员,我吃了很多次Bucks餐厅的饭。在我们上了CNN和MSNBC之前,能被《ABA Journal》或其他法律刊物报道已经是大事了,而突然之间,一切都变了。这就是产品市场契合度真正的样子。Mark在2005年写的文章描述的完全正确,而2023年的情形也是如此。
3、被6.5亿美元收购
主持人: 你能谈谈那段疯狂的时期吗?从你发布CoCounsel到公司被以6.5亿美元收购,只用了两个月的时间,究竟发生了什么?
Jake Heller: 首先要澄清的是,交易是在发布六个月后才正式完成的,但的确是发布两个月后开始了谈判。当时,我们刚刚开始开发CoCounsel。为了背景说明一下,CoCounsel的理念是,在看到GPT-4后的48小时内,我们决定开发一种AI法律助手。这个想法在当时听起来很疯狂,现在听起来仍然有点不可思议。我们指的是一种类似于律所新成员的AI助手,你可以像与ChatGPT对话一样与它交流,给它布置任务,比如“我需要你阅读这100万份文件,找出公司里是否存在欺诈行为。”几个小时后,它会给出总结,或者“请总结这些文件”,或者“进行法律研究,基于数百或数千个案件,撰写一份完整的备忘录”。所以,它从一开始就被设计为一种强大的劳动力延伸工具。这就是我们的初衷。我们很快就做出了一个早期版本。因为和OpenAI的协议,我们无法公开宣传这个产品,但他们允许我们将保密协议扩展到少数客户。我们开始让客户使用这个产品,因此在GPT-4公开发布的几个月前,我们已经让一些律所在使用了。他们并不知道自己在用的是GPT-4,但他们确实感受到了一些非常特别的东西。其实这还发生在ChatGPT出现之前,这是他们第一次体验到这种神一般的AI,一下子就完成了我以前在执业时需要整整一天才能做完的任务,而它只用了不到两分钟的时间。可以想象,这种体验真的让人觉得不可思议。首先,整个公司,我们120个人在GPT-4公开发布之前的几个月里都没有睡觉。我们感觉自己有一个绝佳的机会,可以在市场上遥遥领先。
当每个人都拼命工作的时候,真的会发生一些美妙的事情,就是你可以快速迭代。我看到一些公司现在还停留在我们刚看到GPT-4时的状态,我觉得这是因为他们没有像我们那样全身心投入。在GPT-4公开发布的那六个月里,我们能够非常专注、非常投入。
主持人: 为了完成这种转变,你不得不重新激励整个公司。你进入了“创始人模式”,当时员工中有很多反对的声音,比如,“这个项目原本运行得很好,为什么我们要突然全力投入AI?” 你能谈谈当时的“创始人模式”时刻吗?
Jake Heller: 首先,尤其是在你已经经营一家公司10年的情况下,这种情况更为明显。员工们看着你在迷宫中四处摸索,碰到死胡同。很多员工在这期间一直陪伴着公司,看着我,作为创始人,坚定地说“我们一定要朝这个方向前进,这一定会成功。” 但有时它并没有成功。员工对你的信任是有限的,这可能是我在一些员工心中最后一次机会了,他们可能会想,“Jake又来折腾这个疯狂的新技术了,又要让我们全力投入。”确实需要做出一些努力去说服大家。你可以想象,如果你是负责市场推广或销售的员工,公司当时每年营收增长70%-80%,年经常性收入(ARR)在1500万到2000万美元之间,情况并不糟糕,甚至很好。他们可能会问:“为什么我们要改变?情况已经不错了。” 董事会中有些成员立即理解了这个方向,但也有一些需要被说服。
主持人: 那时你是如何应对的?
Jake Heller: 对我来说,一个非常有效的方法是以身作则。我自己动手开发了这个项目的第一个版本。即便公司有120名员工,有一大批工程师和律师,我还是亲自编写了这个产品的初版。
主持人: 哇,即使有这么多工程师和团队,你还是亲自打开了IDE,自己编写了产品?
Jake Heller: 是的,一部分原因是最初保密协议(NDA)只覆盖了我和我的联合创始人,这反而是件好事。即便后来保密协议扩展了一些,我们在初期还是保持了团队的精简。在看到GPT-4后的48小时内,我就决定我们要全力投入这个项目。但实际上我们是在一周半后才通知公司的其他人。在那一周半里,我和联合创始人一起构建了第一个版本的原型。我记得时间非常有趣,我们是在周五第一次见到GPT-4的,整个周末我们都在研究它,到了周一,所有高管来参加例会时,原本大家以为我们会讨论下季度的销售目标,但我说:“各位,我们今天不讨论这些了,我们要谈一件完全不同的事情。” 然后我就打开笔记本电脑,向他们展示了这个项目。我自己构建了第一个版本。通过这个过程,我和几名其他人迅速推进了项目。我们也很早就把客户引入了这个项目中,帮助说服了很多人。只要那些对产品持怀疑态度的销售或市场人员,或者甚至是工程师,看到客户在Zoom会议中实时体验这个产品时的反应,大家的想法就会很快改变。你得想象,在ChatGPT出现之前,很多人都是第一次看到这种理念,他们的震惊之情写在脸上。
我们在Zoom通话中能看到有人现场经历了“存在主义危机”。他们的表情立刻发生了变化,一些高级律师的典型反应是,“那我差不多该退休了,我不想处理这个问题。” 这种震撼很大程度上是因为GPT-4的出现。我们在GPT-2和GPT-3时也有一些体验,但GPT-4的影响是前所未有的。我们与很多实验室,包括OpenAI,都保持着密切的关系,他们总是在早期阶段向我们展示一些东西。他们会问我们:“你能为法律领域开发些什么吗?” 每次我们都会说:“不,这还不行。”当我们看到GPT-3和3.5时,我们觉得,“好吧,这听起来像是合乎逻辑的英语,甚至有点像律师的口吻,值得表扬,但它编造的内容太离谱了。”尤其在法律领域,事实必须准确,不能出现幻觉式的错误,甚至连错误的假设也不行。我们做了很多工作,才让这些早期模型接近可用状态,但它们并不完全合格。
主持人: 你们是如何处理这些问题的?
Jake Heller: 我记得当时GPT-3.5发布时,有一项研究表明它在律师资格考试中得到了第10百分位的成绩,也就是说它比一些人表现得更好,但仅仅是10%。可能那些人都是随便填的答案。当我们获得GPT-4的早期版本时,我们决定再做一次测试。我们与OpenAI合作,确保测试内容不在其训练数据中,并进行了全新测试。结果显示,GPT-4的表现超过了90%的考生,这真是巨大的进步。我们也开始进行一些测试,比如让它阅读四到五个案例,然后基于这些案例撰写一份备忘录,回答一个问题。我们做了大量的提示工程(prompt engineering)工作,以确保它准确引用我们提供的内容,而不是随便编造。我们当时就觉得,这与之前的模型完全不同,这是一个关键时刻。老实说,我不知道当时与我们合作的研究人员是怎么想的,但在那次会议上,感觉就像我们过去的很多会议一样,准备告诉他们:“这个东西不适合法律领域,你们继续努力吧。”但那次会议上,我们也经历了类似客户的“存在主义危机”,意识到:“哇,这次真的完全不一样了!”
4、提示工程框架
主持人: 你们当时的心态是什么?尤其是你们在早期没有任何现成的提示工程框架时,你是如何一步步开展的?
Jake Heller: 当时的过程其实与我们今天的做法差别不大。我们从用户问题出发,比如用户想进行法律研究,他们想要一份备忘录来回答他们的问题,并且要引用原始来源。这是最终的结果。然后我们倒推,考虑如何从这个结果开始,逐步实现它。我们称之为“技能”(skills),这在当时是非常独特的想法。我现在看到很多公司也把他们的AI能力称为“技能”。
主持人: 能详细解释一下你们是如何定义这些“技能”的吗?
Jake Heller: 好的。以法律研究为例,最好的律师接到一个请求后,会将这个请求分解为实际的搜索查询,通常会使用一些特殊的搜索语法,类似SQL的查询语句。因此,律师需要从英文问题出发,分解为十几种不同的搜索查询,然后非常认真地执行这些查询,针对法律数据库获取结果。每个查询可能返回100条结果,最优秀的律师会逐条阅读这些案例、法规和判决文书,做笔记、总结,并逐渐形成他们的回应框架,逐段逐行地编写出最终的备忘录。
这确实是一项非常复杂的工作。律师会在过程中提取关键的见解,并且引用所有相关的法律条文和案例,确保所有的论点都基于真实的法律依据。通过这种方式,我们能够帮助客户得到他们真正需要的、准确而有法律依据的研究结果。最后你会把所有的研究结果整理成备忘录。我们当时的想法是,每一个步骤,对于以前的技术来说几乎都是不可能实现的,但现在这些步骤可以通过提示逐步完成。
主持人: 一步一步地思考,对吧?
Jake Heller: 没错。我们实际上把整个过程分解成了多个步骤,最终结果可能需要十几到二十几个不同的提示来完成。每一个提示可能本身也需要逐步思考。对于每一个提示,我们都有非常明确的标准,知道好的结果是什么样的。以前我们有一套测试方法,但这次变得更加密集了。起初我们可能写了几十个测试,然后增加到几百个、几千个,用来测试每一个提示。举个例子,假设研究过程的第一步是将英文查询分解为搜索查询。我们知道好的搜索查询应该是什么样的,并且为每一个输入写出了标准答案。所以我们的提示工程师(包括我自己在最开始的时候)就会一起编写这些英文提示,先写测试,然后尝试确保每1200次中有1199次能够得到正确答案。
这有点像测试驱动开发,有趣的是,我以前并不太相信测试驱动开发,但在提示工程中,它变得非常重要。由于大型语言模型的特性,它们可能会朝着意想不到的方向发展。你可能很容易在修复一个问题的同时破坏另一个部分,因此测试驱动的理论在提示工程中尤为重要,甚至比传统软件开发更为重要。
主持人: 有些人说很多公司只是在做GPT的“外壳”,没有真正的知识产权。你怎么看?你觉得在这方面还有多少可以开发的空间?
Jake Heller: 我认为当你真正为客户解决问题时,比如在我们这里,AI要做的是一名年轻律师的工作,并且要做得非常好。为了真正完成这项工作,你必须添加很多层次的东西。当你把所有这些加在一起时,你的产品已经不仅仅是一个GPT“外壳”,而是一个完整的应用程序。比如在我们的案例中,可能包括专有数据集,比如法律文本及我们自动添加的注释;也可能包括与客户数据库的集成,尤其是法律行业中的特定文件管理系统,这些集成非常关键。再比如,光学字符识别(OCR)的质量以及你使用的OCR程序如何设置,这些都会影响任务的完成。例如,CoCounsel会处理大量文件,文件里可能会有手写的内容,或者扫描件是歪的,甚至有些法律文件为了节省空间,会在一页纸上打印四页内容,阅读顺序变得非常复杂。这些边界情况你都必须考虑进去。
解决了所有这些边界情况后,你才会到达大型语言模型的部分。在这之前,你可能已经在应用程序中构建了几十个不同的功能,使其能够正常工作并且表现良好。然后你会进入提示编写的环节,编写非常具体的提示,制定策略,逐步分解一个大问题,正确地传递和格式化信息。这些都成为你的知识产权,既难以构建,也难以复制。
主持人: 听起来你们的业务逻辑已经非常复杂了。
Jake Heller: 是的。就像很多非常成功的SaaS公司一样,尤其是在某个特定领域,往往需要非常定制化、非常专业的集成,比如与某些专业法律数据库的集成。其实所有SaaS公司最初都是数据库的“外壳”,像Salesforce这样的公司,他们构建了围绕数据库的业务逻辑,连接了不同的表格,并将它们用于业务管理。大多数人无法做到这一点,而我们试图填补这种差距。你可以在ChatGPT中展示很多很酷的Demo,不需要编写任何代码,效果大概70%能成功,但要让它达到100%的效果,这是完全不同的任务。用户可能愿意为70%的准确率支付每月20美元,但如果要达到完全工作的状态,特别是在不同场景下,可能需要支付500美元甚至1000美元。实现最后一段提升,无论是最后一英里还是最后一百英里,都能带来巨大的价值。
主持人: 你们是如何从70%提高到100%的?我们经常听到对这项技术的批评,说这些大型语言模型(LLMs)幻觉太多,不够准确,无法用于实际场景。但是你所做的案例是非常关键的应用,如果AI向律师提供了错误的信息,可能会影响重要的法庭案件。在这种情况下,你们如何确保其足够准确,让天性保守的律师们信任它?
Jake Heller: 首先,采用测试驱动开发的框架帮助我们很大。你可以开始发现它为什么出错的模式,然后针对这些模式添加一些指令。有时它仍然不会给出正确答案,这时你需要反思自己,问自己:“我在指令中是否足够清晰?我是不是提供了它不应该看到的信息,或者提供了过多或过少的信息,以至于它无法全面了解上下文?” 通常,这些模型相当智能,因此你通常可以找出失败的原因,并逐步改进到能够通过这些测试。
主持人: 你们是如何确保模型最终达到足够的准确率的?
Jake Heller: 我们发现,如果它能通过100个测试,那么它在面对用户输入的下一个10万个随机样本时,100%准确的几率就非常高。我们学到的一点是,当你逐步排查错误并通过测试后,模型在大多数情况下表现都非常稳定。
主持人: 许多创业者很容易陷入“直接上手”的诱惑,完全不做评估,也不进行测试驱动开发,只靠感觉去做提示工程。你们似乎很快就转变了过来,是不是一开始就意识到不能这样做?
Jake Heller: 是的,这很大程度上取决于使用场景。对于我们正在处理的许多场景,正确答案是唯一的。如果你给出错误答案,律师们绝对不会高兴。我自己曾经做过律师,也与律师共事了十年,每当我们做出哪怕最小的错误,都会立刻听到反馈。所以在这个过程中,我脑海里始终有那个声音提醒我。那是你在LLMs出现之前,经历了十年漫长过程的学习,
必须要做到100%的准确性,这一点在很多领域可能比我们意识到的还要重要。另一个我们经常考虑的问题是,用户会很快对这些东西失去信任。如果用户第一次使用体验不佳,他们可能会想:“也许我一年后再来看这项AI技术吧。” 特别是那些忙碌的律师,他们不是技术专家。我们知道,必须让律师在第一次使用的那一周里就感到满意,否则他们不会深入投资使用这项技术。
5、OpenAI的o1模型
主持人: 我们来谈谈OpenAI的o1模型吧,因为这个模型非常不同。到目前为止,像GPT-4和之前的模型,更像是丹尼尔·卡尼曼所说的“系统一”思维,他因此获得了诺贝尔奖。“系统一”思维是人类基于直觉和模式快速做出的决策,LLMs在这方面表现非常出色。但它们在执行功能上非常糟糕,而你描述的这些任务实际上就是把执行功能交给LLM,比如“你应该如何思考?”这更像是“系统二”的慢思考。你对o1模型有什么看法?这是否改变了现有的格局?
Jake Heller: 首先,我认为01是一个非常令人印象深刻的模型。我们给它设定了一些我们知道之前模型无法通过的测试,结果它在准确性、严谨性和智能应用方面表现得非常出色。有时它解决的问题甚至是我们之前认为不需要特别智能的模型来解决的,比如我们给它一个律师写的真实法律简报,但我们稍微修改了其中一些引用,比如改变了某些引用的词语,使其变成错误的引用或错误的案例总结我们给了AI一个完整的案例文本,然后问它:“律师在这份简报中有什么错误?” 在此之前,所有的LLMs都会说:“没有错误,一切都正确。” 它们无法精确地处理我们在简报中故意做的那些细微改动。但o1模型却能够立即识别这些问题。比如我们只是把“和”改成了“既非也不”,o1模型会花些时间“思考”,然后给出回答。这是你期望早期的LLMs能通过的测试,但它们做不到,而o1却能做到这种非常精细的思维。
主持人: 你觉得o1的内部机制是怎样的?
Jake Heller: 虽然我们不了解o1的具体工作原理,但看起来它采用了一种“连贯思考”(chain of thought)的方式。我猜测OpenAI可能收集了大量人类逐步思考和解决问题的内部对话数据,让o1可以在这些数据上进行训练。这个过程类似于你把任务分解成小块,逐步达到100%的准确性,而不是把所有信息一次性输入上下文窗口,指望它能够“魔法般地”工作。
主持人: 你认为这就是o1的核心吗?
Jake Heller: 我认为很有可能。他们可能让合同工不仅仅输入问题和答案,而是输入“我该如何思考这个问题”,然后再给出答案。有趣的是,这样做可能会受限于写这些指令的人的智能水平。
主持人: 你们现在在o1上做了哪些探索?
Jake Heller: 我们正在研究的是,是否可以通过提示让o1在其思考过程中专注于特定的内容。比如,我们聘请了一些美国最优秀的律师,我们能否让o1像这些律师一样思考并解决问题?我们目前还没有确凿的证据表明,这种方法显著提高了效果,因为时间太早,还没有足够的时间去验证。不过,有可能在L1模型中引入的一种新提示技术不仅是教它如何回答问题,以及什么是好的答案,而是教它如何思考。我觉得这是一个非常有趣的机会——将领域专长或者我们自己的智能注入其中。
主持人: 我真的很感激你分享这些“面包屑式”的线索,很多领域这项技术才刚刚起步。其实你走进几乎任何一家公司,很多人都不知道现在发生了什么。他们仍然重复那些老生常谈的说法,比如“你应该微调模型”之类的。这些与我们每天看到的初创公司和创始人实际为用户创建产品的情况是脱节的。
Jake Heller: 我很高兴我们能分享这些消息和知识。比如我们提到的“你应该进行评估”,在将准确率从70%提高到100%之间,有巨大的“价值差”。这些“面包屑”实际上会促成数十亿甚至上千亿的公司诞生,我们希望如此。我觉得你将会看到许多像法律这样的领域大幅提升效率,不再需要花费数百万美元、六个月的时间,埋头在地下室逐页阅读文件。当你可以直接跳过这些步骤,得到结果,然后从战略和智能角度去思考时,真正的价值就展现出来了。目前公司每年支付数百万美元的薪资让人们做这些工作,所以如果有公司开发出能完成这些工作的AI,哪怕只完成其中的一部分,价值都是巨大的。我想鼓励大家不要被那些老套的说法吓倒,比如“它幻觉太多了”、“它不够准确”等等。其实每个问题都有解决的路径,你是可以做到的。
主持人: 最好的消息是,工作不会消失,只会变得更有趣。
原视频链接:https://www.youtube.com/watch?v=eBVi_sLaYsc&ab_channel=YCombinator
喜欢这篇文章吗?别忘了点赞、收藏、转发支持一下!期待在评论区听到你的看法!
往期回顾
1、[在卡内基梅隆大学,谷歌CEO Sundar Pichai演讲AI正创造一个全新生态系统, 为个人提供更多成功机会]
2、[万字整理一小时采访:谷歌AI首席科学家 Jeff Dean详解AI的前生今世,并预测AGI实现时间表]
3、[新公司融资2.3亿美元,李飞飞亲自解读空间智能公司的AI创新与独特盈利模式(附采访视频)]
我们旨在将先进科技与创新想法完美融合!
想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮
告别昂贵服务和缺人烦恼,再见漫长交付周期
无限创意,分分钟生成专业级产品
感受 AI 带来的全新工作体验!
欢迎各大品牌方、媒体、企业和个人等
请联系负责人微信:Milo-1101
--END--