2万字全文｜陶哲轩和OpenAI对谈数学及科学研究中的AI应用、人脑更善于基于少量数据作出判断

文摘 2024-12-16 07:30 浙江

👇关注公众号后设🌟标，掌握第一手AI新动态

本文内容整理自陶哲轩接受OpenAI Youtube频道专访，公开发表于2024年12月13日。原始内容参考：https://www.youtube.com/watch?v=Zu2oET6X

内容提要: 陶哲轩接受OpenAI论坛专访
AI辅助数学研究： AI 可以重塑数学研究方式，实现大规模协作。AI 擅长模式识别、猜想生成、证明策略提出及验证，以及反例生成，能与人类数学家分工协作，提高效率，但人类仍需在问题定义、审美判断和最终验证方面发挥关键作用。形式化证明辅助工具(如 Lean) 是AI辅助数学研究中不可或缺的中间层，确保证明的正确性。
数学家角色转变： AI 的应用将导致数学家角色分化，出现不同专业化的方向，例如专注于问题定义、计算、证明撰写等不同环节的人员。
AI与科学研究的结合： AI 不仅能加速数学研究，也能广泛应用于其他科学领域，例如材料科学、医疗保健等，通过提供计算能力、模式识别和辅助推理等功能，加速科学研究和商业化进程。然而，需要解决AI模型的可信度、可解释性及数据来源的可靠性等问题。
数据与模型的局限性： AI 模型的有效性与数据密切相关。对于数据丰富的问题，AI 表现出色；但对于数据稀缺、需要高度策略和直觉的复杂问题，AI 仍需改进。某些数学问题本质上是不可判定的，AI 也无法解决。
AI对数学教育的影响： AI 工具将改变数学学习和教学方式，例如通过批评AI生成的错误答案来加深对知识的理解。然而，过度依赖 AI 工具可能导致某些技能的退化，需要平衡AI辅助学习与独立思考能力的培养。
AI带来的挑战： AI 的应用带来新的挑战，例如论文署名、知识产权、模型可信度和公平访问等问题都需要进一步探讨和规范。
未来的发展方向：未来的AI模型可能朝着多模型协作、不同类型推理整合的方向发展，以发挥各自优势，弥补不足。需要持续投资于AI的可解释性研究，并建立健全的机制来保证AI模型的可靠性和安全性。数学家需要保持灵活性和开放心态，积极拥抱并利用AI工具，同时保持对人类直觉和审美判断的重视。

陶哲轩简介

陶哲轩（Terence Tao）是澳籍华人数学家，被誉为当今世界最伟大的数学家之一。他智商超群，7岁时便开始学习大学微积分课程，9岁参加国际数学奥林匹克竞赛并获得铜牌，10岁和11岁分别获得银牌和金牌，成为IMO历史上最年轻的金牌获得者。2006年，他因对偏微分方程、组合数学、谐波分析等领域的杰出贡献获得菲尔兹奖，这是数学界的最高荣誉之一。

陶哲轩的研究领域广泛，涵盖调和分析、偏微分方程、组合数学、解析数论等多个分支。他擅长将不同数学领域的工具和方法巧妙地结合起来解决复杂问题，他的研究成果对许多数学领域产生了深远的影响。除了菲尔兹奖，他还获得了麦克阿瑟天才奖、克拉福德奖等诸多荣誉。

陶哲轩不仅是一位杰出的数学家，也是一位优秀的教育家。他热衷于数学普及工作，经常在网络上分享自己的研究成果和教学经验，并积极培养年轻一代的数学人才。他谦逊、勤奋，始终保持着对数学的热情，堪称数学界的典范。他证明了数学研究不仅需要天才，更需要持续的努力和对真理的追求。

访谈全文

主持人Natalie Cohn： 我是 Natalie Cohn，你们的 OpenAI 论坛社区架构师。我喜欢在所有演讲开始时提醒大家 OpenAI 的使命，即确保通用人工智能造福全人类。

为了结束我们今年的演讲系列，我们邀请到了我们一直以来最受欢迎的嘉宾之一，加州大学洛杉矶分校的数学教授陶哲轩，以及我在 OpenAI 的两位非常鼓舞人心的同事，Mark Chen 和 James Donovan。陶哲轩是加州大学洛杉矶分校的数学教授。他的研究领域包括调和分析、偏微分方程、组合数学和数论。他曾获得多项奖项，包括 2006 年的菲尔兹奖。自 2021 年以来，陶哲轩还在总统科学技术顾问委员会任职。

Mark Chen 是 OpenAI 的研究高级副总裁，负责监督高级人工智能项目，推动语言模型、强化学习、多模态模型和人工智能对齐方面的创新。自 2018 年加入以来，他在塑造该组织最雄心勃勃的项目中发挥了关键作用。Mark 致力于确保人工智能的发展造福社会，同时保持对负责任研究的关注。

最后，James Donovan 领导科学政策与合作以及全球事务，专注于如何最好地利用我们的模型来加速科学研究和商业化。在加入 OpenAI 之前，他曾是 Convergent Research 的创始人、风险投资人和合伙人，在那里他帮助启动了多个登月科学组织，包括 LeanFro，一个用于复杂数学的自动化定理证明器。

请大家欢迎我们的特别嘉宾来到 OpenAI 论坛。

主持人James Donovan： 太棒了。非常感谢，Natalie。我非常感谢你的介绍。今晚能与如此伟大的思想家在一起，我感到非常荣幸。在开始之前，我想向 Natalie 和她的团队表示衷心的感谢，感谢他们组织了这一切。把这么多人聚在一起并像她一直以来那样顺利地运行，绝非易事。对我个人而言，能在这里和你们两位交谈，我感到非常荣幸。所以感谢你们抽出时间。另外，作为一个总体的说明，虽然这是今年论坛活动的结束，但这也标志着新的一年的开始，我们将有一个主题侧重于科学以及我们的模型如何与科学交叉并加速科学发展，希望以安全和公平的方式惠及更广阔的世界。为了开始今天的讨论，我想先请 Terry，然后是 Mark，分享一下你们目前最关注的有趣问题是什么，以及为什么我们努力解决这些问题如此重要？

陶哲轩： 好的，好的，有很多技术性的数学问题我很想解决。我认为与本次会议更相关的是，我真的很感兴趣我们如何从根本上重塑数学，以及我们如何利用所有这些新工具以我们以前无法做到的方式进行协作，从而以前所未有的规模进行数学研究。我认为这可能是一个新的发现时代。就像现在，数学家们一次只研究一个问题。我们花费数月时间研究一个问题，然后继续下一个。有了这些工具，我们有可能一次性扫描成千上万的问题，并进行截然不同的数学研究。所以我对这种可能性感到非常兴奋。

马克·陈： 是的。我的意思是，我们过去一年的一大重点是推理。所以，你知道，自从 GPT-4 以来，我们稍微转移了我们的重点。我认为 GPT-4，就各种意图和目的而言，是一个非常聪明的模型。它包含了很多世界知识。但它在很多方面也很愚蠢。它会被简单的谜题绊倒，并且常常非常依赖先验知识。如果它对谜题应该如何形成有一些先验知识，它通常会犯同样的模式匹配错误。我认为这些问题指向了模型深入推理能力的不足。

所以我们一直专注于开发我们现在看到的 O 系列模型。这些模型更像是系统二的思考者，而不是系统一的思考者。我认为它们不太会给出直观、快速的反应，而是会花更多的时间反思问题，然后再产生回应。

此外，我想强调我们研究议程中的另外两个关键问题。数据效率当然是其中之一。我们关心如何摄取世界上所有的数据，包括非文本数据。最后，还有一个非常实际的问题：我们如何为用户创造直观、愉悦的体验？

主持人James Donovan： 是的，这是真的。我的意思是，最后一个问题可能有点超出数学的范畴，但它是一个至关重要的问题，即这里的人机交互问题。Terry，我想具体问你关于 Mark 概述的 O1 模型。但在我问之前，你刚刚提到了潜在的新型数学。你曾在不同的时间谈到过，你知道，工业规模的数学。你也谈到过不同的数学合作方式。你介意为我们稍微展开一下吗？

陶哲轩： 当然。所以，数学一直被认为是一项非常困难的活动。它目前确实如此，原因有很多，其中之一是它依赖于一个人或少数几个人来完成许多不同的任务以实现一个复杂的目标。你知道，如果你想在数学上取得进展，你必须首先提出一个好问题。然后你必须找到解决它的工具。

在那之后，你必须学习文献，尝试一些论证，进行计算，并检查论证以确保它们是正确的。然后你必须以一种可以解释的方式把它写出来，发表演讲，并申请资助。你必须完成很多不同的任务，而这些都是不同的技能。在其他行业，我们有劳动分工；例如，如果你在制作一部电影，你不会让一个人同时完成制作、剪辑、表演和寻找资金。

然而，直到最近我们才找到一种方法来解耦数学中的所有这些任务。我认为现在我们有了这些工具，原则上，你可以进行协作，其中一个人有愿景，另一个人或也许是 AI 进行计算，还有另一个工具撰写论文等等。你不需要一个人成为各个方面的专家。

我认为很多人因为看到他们必须做的事情清单才能成为一名优秀的数学家而感到气馁，这可能会让人望而生畏。但也许有些人擅长观察数据和检查模式，然后要求 AI 确认是否存在模式。其他人可能不擅长找到要问的正确问题，但他们可以为更大的项目的非常狭窄、特定的部分做出贡献。

这些工具允许数学工作被解耦并变得更加模块化。一些任务可以由 AI 完成，一些由人类完成，一些由形式化证明助手完成，还有一些由公众完成。我们在其他学科中有大型科学和公民科学；例如，业余天文学家发现彗星，或业余生物学家收集蝴蝶。然而，我们并没有真正找到一种方法来利用一些非常小的边缘项目之外的业余数学家。

所以这里有很多潜力，我认为我们必须尝试很多方法，看看什么方法可行。

马克·陈： 抱歉，我有一个快速的后续问题想问您。我很好奇，抛开 AI 不谈，就目前为止，最多有多少人能够协作完成一个数学项目？或者说，您认为这里是否存在一个上限？您觉得呢？

陶哲轩： 嗯。实际上，这个上限大约是五六个人。人数再多就很难了。超过这个人数，你就需要检查每个人的工作，而且让所有人都在同一个房间里工作也很困难。

有一些项目有许多作者，例如，形式化证明项目，会有大量的人参与。这是一个我们已经知道如何众包和分割的任务。你可以在 GitHub 或其他平台上运行它，并且所有的贡献都是可以验证的，因为它们是用 Lean 这样的形式化语言编写的。

这些项目可能有 20 到 30 位作者。Lean 有一个叫做 Mathlib 的东西，这是一个本科数学的库。虽然它从未被正式认可为一个研究项目，但我相信它在技术上至少有数百甚至数千名贡献者。

所以，虽然目前为止我们只在形式化数学领域看到大规模的协作，但这些项目展示了数学团队合作的潜力。

主持人James Donovan： 太棒了。我还要再次赞扬 Lean。那是非常了不起的工作。我想我们今天在座的可能也有一些 Lean 团队的成员。Terry，当您分析这个问题的时候，听起来您默认的假设是人类仍然会划分任务。他们仍然会足够了解整个过程，从而决定谁在哪里做什么。我第一个问题是，您认为，因此，数学家会出现不同的角色吗？会出现他们适应的不同专业吗？然后我想请 Mark 回答，您认为这是否会一直由人类来完成，还是您会看到一个世界，在这个世界中，O1 本身就能分解问题，或者是 O 类模型？

陶哲轩： 我把软件工程看作数学未来发展的一个模板。过去，可能有一个英雄般的程序员完成所有的事情，这和数学家目前的工作方式类似。然而，今天我们有项目经理、程序员、质量保证团队等等。人们可以设想将这种协作模式也应用于数学。

目前，我参与了几个本质上是协作的项目。这些项目既包含了理论框架，也包含了形式化证明部分。参与者们在运行各种代码算法，团队结构内的专业化也在按照我预想的方向发展。有些人可能不了解数学，但在形式化定理方面很擅长；对他们来说，这几乎就像是在解谜。

此外，还有一些团队成员擅长 GitHub，管理项目，并确保所有后端流程顺利运行。我们还有专注于数据可视化的成员。我们的协调主要依赖于人类和更传统的 AI 工具，例如定理证明器，通常运行 Python 代码或类似的程序。

我认为这种协作框架提供了一种范式，一旦技术足够先进，它将有效地整合 AI。

马克·陈： 是的，这对我来说也很有道理。我觉得，你知道，现在我在很多方面都把 AI 当作同事来看待。你知道，有些我不太擅长的事情，我可以交给 AI 来处理。

我在这里只是推测，因为我不是数学家，但就 AI 在帮助解决数学问题方面的优势而言，首先可能是识别模式，对吧？机器在这方面相当擅长，尤其是在有大量数据或大量内容需要筛选时。从识别模式开始，你可以开始形成猜想，我认为它们在这方面可能具有独特的优势。

另外，提出证明策略，我认为是我们上次讨论过的事情。我相信，人类今天仍然可能对正确的步骤有更好的直觉，但也许我们在某个特定的步骤上存在盲点。上次我们提到，在你们尝试解决的一个玩具问题中，一个模型提出了一种生成函数方法，而事实证明，在当时的情况下，这个方法实际上并不是一个糟糕的主意。

此外，还有验证的可能性。模型可能能够验证你非常确定是正确的某些步骤，但你只是想让另一双眼睛看看。而且，它们可能在生成反例方面也很有效率。如果有你想要考虑一个定理可能错误的很多潜在方式，模型可能比你更有效地穷尽这些方式。

主持人James Donovan： 这很有道理。你们在回答中都提到了定理证明器和更广泛的形式化。是否可以公平地说，你们都认为在进行数学运算和使用 LLM 或等效技术之间，这是一个必要的中间层？

陶哲轩： 在很大程度上，是的。我的意思是，证明必须是正确的。而数学证明的关键在于，如果你在证明的 100 个步骤中错了一步，那么整个证明都可能崩溃。

所以 AI 当然会犯很多错误。在某些数学类型中，可以接受一定的错误率。就像 Mark 所说，寻找模式和形成猜想——如果还有其他方法可以检查，那么 AI 只是在一定程度上正确是可以接受的。

特别地，如果它试图输出一个论证，那么强制 AI 以 Lean 之类的形式输出，这是一种非常自然的协同作用。如果它编译通过，那就太棒了。如果没有，它会发回错误消息并更新其答案。人们已经实现了这一点，他们可以证明，这种迭代技术可以完成一些类似于本科家庭作业水平的简短证明。

当然，还远没有达到你可以直接问它一个高层次的数学问题，它就能输出一个巨大证明的程度。好吧，AlphaProof 可以在三天内完成计算，但这不具备可扩展性。

是的，对于一些允许一定错误率的宽松问题，你不需要形式化的证明辅助。但对于任何真正复杂的问题，其中一个错误就可能蔓延开来，那么它基本上是不可或缺的。

主持人James Donovan： 我想我也会加入我的观点。

马克·陈： 是的，我想在 OpenAI，在我们历史上的不同时期，我们都或多或少地关注过形式化数学。我认为今天我们做得少了一些。我真的只是因为我们想探索完全一般化的推理。我们确实希望在计算机科学等领域学到的推理，和在数学等领域学到的推理非常相似。所以，是的，当然理解从事数学研究的优势。

主持人James Donovan： 我很想再回到定理证明器、数学、AI 的架构，看看这是否也适用于其他科学领域。但在那之前，我有一个问题，即使在训练过程中，可能也有很多不正确的解题方法没有进入训练模型。因为数学家总体上不会发表不正确的东西，这在更广泛的科学领域也是如此。你们都认为这会有很大的不同吗？我们是否应该尝试推动一种文化规范，让人们发表失败的答案？

陶哲轩： 嗯，抛开人工智能不谈，我认为那是个好主意。鼓励这一点很难。人们通常不喜欢承认错误。但是，我认为这实际上可以作为人工智能的宝贵训练数据。

当我教课的时候，有时候最有效的课程反而是意外发生的。例如，当我准备一个证明，在课堂上展示它，然后意识到它行不通时，我必须实时地修正它。学生们会观察我尝试各种方法、改变假设，并通过实例进行推演。我收到的反馈是，那些我犯了错误的课程对学生来说是最有价值的，因为他们亲眼目睹了解决问题的过程。

像你们大多数人一样，通常没有机会获得这种体验式的学习。许多领域的专家都是在数十年的错误中建立起专业知识的，这些错误教会了他们什么不该做——这种负空间对于学习至关重要。

随着我们走向更加正式的环境，我们开始在证明完成后对其进行形式化。最终，我们可能会达到边走边形式化的程度。在思考数学问题时，我们可能会与人工智能进行对话，实时形式化步骤。如果行不通，我们可以回溯。这种动态过程可能会产生我们目前缺乏的那种宝贵数据。

主持人James Donovan： 出于好奇，很多数学家都在谈论定理之美，以及当一切都契合在一起并能以优雅的方式表达出来时的那种顿悟时刻。如果我们使用这些工具，我们是否会失去那种认知过程？

陶哲轩： 我认为，嗯，当计算器普及的时候，也出现了类似的情况，对吧？人们总是说，你知道，现在你不用手工计算了，你会失去数感。而且，你知道，在某种程度上，这是真的。我猜想，50或100年前的数学家在通过直接计算培养数感方面要好得多。

但是，你也可以通过玩计算器获得另一种类型的数感。因此，我认为会出现不同的美学标准。我认为会出现一些计算机生成的证明，它们也会以不同的方式非常优雅和令人惊叹。

不过，我不认为人工智能模式会在未来几十年内完全取代人类。我认为数学家在适应方面有些迟缓；你仍然可以看到我们使用粉笔和黑板，就像右边图片展示的那样。所以仍然会有人创作出真正精彩的证明。

我相信会有一类数学家，他们会把人工智能生成的数学成果转化为更人性化的东西。我认为这将成为未来常见的做法。

主持人James Donovan： 出于好奇，马克，当你听到Terry这样的回答时，你是否会花很多心思去思考，不仅要如何使推理高质量、准确，还要考虑人类如何使用这些输出，以及方程式的这一方面？

马克·陈： 是的，是的。所以，我的意思是，当你想到强化学习（RL）时，它也像是激励模型，并让模型从错误中学习。所以这让我产生了很强的共鸣。

是的。我确实认为，这是你发展稳健和强大的推理能力的方式，对吧？你不能仅仅被展示很多准确推理的例子，因为数学推理中存在大量的负空间。

我认为，我确实认为，模型将会变得更有用，更加有用。我很乐观地看待这件事。至于它产生的影响，对吧？

是的。听到人们不认为我们会失去美感或直觉，而是可能会发展出新的抽象层，并形成新的抽象和直觉，这真的很有趣。

而且，是的，这似乎很有趣，而且也很可能发生。所以，是的，看到它发生会很酷，特别是如果它很快发生的话。

主持人James Donovan： 是的，这是一个非常有趣的思路，只是从我的生物学角度来看，假设往往是这些模型会在那些原本被认为不相关的事物之间找到模式，你会发现所有这些事物之间存在潜在的统一性。但这有点基于我们没有注意到很多唾手可得的成果这一想法。然而，我认为对于像数学和部分物理学这样的东西，其改进几乎是在于活动的方式。我们觉得这可能是根本不同的。我想知道，Terry和马克，你们是否认为这会对我们如何教育人们学习数学产生影响，特别是对于那些将要进行前沿数学研究的人提供支持。

陶哲轩： 嗯，是的，我的意思是，当然，学生们已经在使用大型语言模型，最明显的是帮助他们做作业。但是，你知道，也可以从另一个角度来看待这个问题。教育工作者实际上也在探索如何将大型语言模型融入到我们的教学中。

越来越常见的一种做法是，提出一些数学问题或其他领域的问题，给出GPT的答案，并说这个答案是错误的，请批评它。此外，我们可以与人工智能进行对话，教它如何修正答案。实际上，有一个班级做了一个小组项目；老师给班级发了一份期末练习题，并说：“好吧，尝试用提示工程和数据分析来训练人工智能，以实际生成期末考试的合成版本。”

他们探索了如何最有效地教人工智能解决期末考试，组织一个小组做提示，另一个小组处理基准测试等等。抱歉，我的灯灭了。但这还迫使他们，例如，生成所有用于创建合成考试的数据。他们真的必须理解课堂材料才能做到这一点，这实际上是一个深入研究课程材料以及如何使用这些人工智能工具的借口。

因此，我们将找到创新的方法来结合这两者。

马克·陈： 是的，我想有些人，他们指出了恐惧，对吧？就像如果你过分依赖人工智能系统，你的技能会退化吗？或者你会有更少的洞察力吗？

陶哲轩： 嗯，那么，你的问题是什么？

马克·陈： 是的，只是，你认为过度依赖人工智能工具是否会导致数学方面的技能普遍下降，或者洞察力丧失之类的？

陶哲轩： 嗯，这将是一种转移。我认为我们会较少地使用某些技能，但我们会更频繁地发展其他技能。

这可以用国际象棋来类比。国际象棋现在基本上是一个已解决的问题。但是人们仍然经常下棋。现在他们练习国际象棋的方式已经大不相同。他们尝试不同的走法，然后问国际象棋引擎，你知道，这一步是好棋还是坏棋？

例如，国际象棋理论正在蓬勃发展。关于棋盘的哪个部分是好的控制等等，有很多流传了数百年的格言，但实际上现在人们正在通过向国际象棋引擎提出各种问题来重新评估这些格言。这是一种获得国际象棋直觉的不同方式，而不是仅仅通过下很多局棋和阅读大量教科书的标准方法。

所以，是的，这是一种转变。这是一种权衡，但我认为它将是净收益。

马克·陈： 是的，我觉得当人们问我关于，比如说，他们应该如何适应，对吧，适应正在涌现的人工智能工具时？我仍然认为，大体上来说，没有必要突然放弃学习任何特定的学科，对吧？我认为人们真的应该拥抱人工智能，并看看它如何能让他们更有效率。

比如在数学方面，对吧？它可以帮助你进行很多繁琐的计算。你知道，如果是一些你已经非常熟悉的常规操作，你可以让模型来执行代数运算之类的。我仍然认为，对该学科的深入理解和更深层次的认识是非常重要的。

是的，即使在今天的机器学习领域，对吧？那些产生最大影响的人，是那些非常深入理解数学，比如系统原理的人，对吧？我认为这仍然是一个非常重要的杠杆。

此外，关注抽象概念也很重要。我认为人类拥有一种特别的审美观，这种审美观与数学的核心紧密相连。而且我认为，由于其他人类会评判这种审美，模型在定义问题和品味方面，可能更难模仿这种审美。

当然，数学本身也是一项很好的技能。我认为它具有很强的可迁移性，它教会你严密的推理。而且我认为数学家通常都具有很强的适应能力。所以，绝对没有理由不在数学上投入大量精力。

主持人James Donovan： 你谈到数学的审美观，这是一个有趣的观点。我们有点抽象了，但我们对数学的理解方式可能与我们作为人类体验现实的方式有关。如果让模型进行非常复杂的数学运算，我们可能会达到一个程度，即超出人类在我们自身语境中验证甚至理解的能力。你们认为在不久的将来会出现这种情况吗？如果出现，你们会如何应对？

陶哲轩： 嗯，实际上，数学家有时会产生没有人能够完全理解的庞大证明，这种情况已经存在了。我们已经大量使用计算机辅助工具。有些证明需要，你知道，有像太字节长的证明证书，因为其中涉及大规模的 SAT 求解器计算或一些大型数值建模之类的。

还有一些证明建立在文献中数百篇论文的基础上，我们将这些先前的结果视为黑盒子，没有人完全理解所有内容。所以在某种程度上，我们已经习惯了这种情况。在数学中，我们可以应对，因为我们有这种抽象语言。我们可以将复杂的证明进行分解；你只需要理解其中的一部分，并且相信计算机或人类能够理解其他部分，然后一切就能正常运行。

这种趋势将会继续发展。我们将会有复杂的大型论证，其中一部分将由人工智能生成，并希望能够进行形式验证。所以，我的意思是，这是一种趋势。它只是加速了已经发生的趋势。我不认为这是一个真正的阶段性变化。

马克·陈： 是的，我认为，是的，我担心的很多问题类似，比如你可能会遇到一些错误，这些错误会传播开来，或者其他人会在一些结果的基础上进行构建。你只是在一些错误的数学基础上进行构建，特别是当新的计算机生成见解的数量增加时。

我的意思是，我们在 OpenAI 非常担心的一个问题是这种更普遍的可扩展监督问题。这个想法是，比如，当一个模型花费大量时间，比如说，思考，并且提出一些经过深思熟虑才得出的基本见解时。

你怎么知道模型没有犯错？你怎么知道它是正确的？你如何信任它？从根本上说，这是一个非常现实的问题，几年前可能还觉得相当理论化。但是我认为今天，模型确实有能力解决非常困难的问题。

所以，你知道，我们如何审查并信任模型得出的答案是正确的？

陶哲轩： 嗯，数学是我们可以尝试的领域，因为我们有形式验证。这也可以以自动化的方式完成。

主持人James Donovan： 没错。而且你会希望那里的进步最终能够推动所有其他科学领域的进步。对。我们可以找到一种方法，从那些数学证明中推导出物理、化学等等的规律。Terry，今天在座的有很多实际上在为学生或其他人从事数学工作的人。所以我有几个非常实际的问题。也许使用人工智能或人工智能相关工具并不会导致阶段性的变化，但实际上数学的一些文化因素可能会发生改变。其中一些独特的事情是数学竞赛。我知道你不久前在布里斯托尔。我将把这个主题考虑进来。你认为实际的生态系统会如何？

适应学习管理系统（LMS）？如果适应，将如何适应？

陶哲轩： 它会的。很难准确预测它会如何适应。我认为会出现一些目前不流行的新的数学类型，因为它们在技术上是不可行的。特别地，实验数学是一个非常非常小的分支。我认为它有 95% 是理论性的，这在所有科学领域中都是不寻常的。在科学领域中，通常实验和理论之间是平衡的。

但实验很难。你必须非常擅长编程，并且你的任务必须足够简单，才能使用常规软件将其自动化，这在数学家或程序员的技能范围内。然而，借助人工智能，你可以进行更复杂的探索。传统上，你可能只研究一个微分方程，但你可以要求人工智能分析该方程，然后对列表中的接下来的 500 个方程重复相同的分析。

这是你目前无法使用传统工具实现自动化的，因为你需要一些对问题有所理解的软件。所以，我认为数学的类型将会改变。该领域已经出现了一种更大的合作趋势，我相信随着人工智能的使用，这种趋势将会加速。

然而，我认为至少在未来一二十年内，我们仍然会撰写论文、评审和教学等等。这不会立即发生重大变化。我看到的是，我们将在工作中越来越多地使用人工智能，就像我们在工作的其他领域逐步引入更多的计算机辅助工具一样。

马克·陈： 是的。而且我认为，是的，关于竞赛的一点。我想我更能谈论编程竞赛，但我不知道它们是否会发生根本性的改变。我认为至少我认识的大多数经常参加这类竞赛的人，他们觉得这很有趣，我觉得，这超越了你获得的技能。因为作弊会成为一个问题。这可能是一个问题，，我的意思是，这本身也是一个非常深刻的问题，对吧？比如，当模型能够解决非常非常困难的问题时，你如何面试别人。所以，是的，但我确实认为竞赛之所以吸引人，很大一部分原因是它很有趣。而且我认为用象棋来类比是一个很好的例子。

主持人James Donovan： 是的。所以作弊绝对是其中一个因素。但我想，不那么刻意或试图打破规则的因素可能就是归属问题。当形式化的很大一部分工作可能由大型语言模型完成，甚至因为组合方法而出现来自大型语言模型的新颖想法时，世界会变成什么样？你们两位能否设想这样一个世界：我们将突破直接归因于大型语言模型本身？这又意味着什么？

陶哲轩： 是的，这将是我们必须面对的一个大问题。我认为，我们现在的论文署名模式已经存在问题，比如在科学领域，我们可能有一个主要作者和一大堆次要作者。但在数学领域，我们还没有这样做。我们仍然喜欢按姓氏字母顺序排列。我们实际上忽略了谁做了什么的问题，只是说，哦，我们都做出了同等贡献。

我认为未来我们必须在论文中更精确地说明贡献和署名。至少在科学领域已经出现一种趋势，当你写论文时，会有一个关于作者贡献的部分，具体说明谁做了什么。如果有GitHub仓库，你可以查看GitHub的提交记录，其中也提供了一些关于贡献的数据。

此外，可能还有一些方法可以自动检查我们的数据并总结谁做了什么。一旦，你知道，一半的提交是由人工智能完成的，我们就会面临诸如我们是否应该将人工智能提升为共同作者或至少提供一些认可的问题。

目前，我们还没有这方面的规范，我们需要制定出来。会有一些测试案例和争议，我们最终会找到一个对每个人都适用的解决方案。但是，是的，我没有这个问题的答案。

马克·陈： 是的，我认为还有一个相关的问题，虽然不完全相同，那就是关于访问权限的问题。我认为，如果模型持续贡献大量的证明，那么那些拥有更多计算资源的人，或者说，他们是否在进行数学研究时处于有利地位？这绝对是需要思考的问题。我不太清楚如何继续深入思考这个问题，但它绝对是一个难题。

主持人James Donovan： 是的，看看会如何发展会很有趣。我的意思是，你已经在更具创造性的领域，看到了关于归属和所有权的问题。但随着它越来越多地参与到科学领域，关于知识产权以及我们如何在这种世界中思考研发周期的问题将会变得很有趣。关于数学或更广泛的科学的应用方面，对于那些本身不是数学家的人来说，我们已经谈了很多关于数学行为的改变以及为什么这很重要。如果我们能够达到一个基础数学被显著加速的阶段（先忽略如何实现这个机制），你期望看到世界上发生什么？这对社会其他部分意味着什么？

陶哲轩： 嗯，我认为它可以提高公民参与数学的程度。例如，可以想象人们会辩论地球是圆的还是平的这个问题。令人惊讶的是，这场讨论仍在继续。但是有了人工智能，你实际上可以开始构建模型，然后说，好吧，假设地球是平的，天空会是什么样子？等等。

现在，你需要相当多的数学知识才能弄清楚事情会发生多少变化。但是，你可以想象，有了这些模型，它可以为你创建一个可视化工具。你可以看到，哦，这就是这个宇宙理论的样子。

我认为这项发展可以将数学与许多目前因需要掌握大量技术技能才能参与其中的人联系起来。

主持人James Donovan： 你认为我们是否需要先更好地掌握这种数学，才能在其他应用科学领域使用人工智能？这是加速工程或物理学的先决条件吗？马克，这个问题也问你，你是否认为这是必要的首要步骤？

陶哲轩： 嗯，我的意思是，很多科学已经是以数学为基础的。如果你不理解数学，你就无法准确地建模。嗯，是的，当然在后端，我的意思是如果你想训练人工智能，你需要大量的数学知识。嗯，我的意思是，有可能我们生活在一个世界里，你可以成为一个生物学家或其他什么，你可以要求人工智能进行统计研究，你不需要知道参数的细节。如果人工智能足够可靠，它可以为你完成所有的数学计算。嗯，因此，从某种意义上说，它可以使数学成为科学的选修课，这与现在的情况不同，所以它可能会双向起作用。

马克·陈： 是的，我的意思是，我认为在加速数学进步及其含义方面，我最信任Terry的观点。我想，作为一名研究人员，并且代表这里的大多数研究人员，我相信我们模型最令人兴奋的应用是当它们被用来加速科学研究时。

我认为，努力提供这种通用的工具，让专家在日常生活中使用，从而加速他们的工作至关重要。我们已经看到材料科学和医疗保健领域的人们在使用推理模型。他们提供了关于这些模型如何运作的证词，这些模型几乎就像他们可以委派任务的学生一样，对某些情况进行相当连贯的分析。

正如Terry提到的，许多人会提出一个场景，并询问该模型是否可以进行一些计算来探索该场景的含义。我认为人们发现这些模型在这些情况下相当有效。

主持人James Donovan： 是的，绝对是这样。我的意思是，我想的是，你会很快进入这样一个世界：只有极少数人能够真正验证你得到的答案是否正确。也许定理证明的结构加上数学领域日益复杂的大型语言模型是唯一的方法，如果你想为这个问题找到一个可扩展的验证解决方案。因此，在某种程度上，我们必须始终把数学放在顶端，然后其他一切都由此衍生。考虑到这是一种潜在的未来，以及我们谈到的一些其他事情，Terry，你对年轻的数学家有什么建议，关于他们应该关注什么，以及他们应该解决什么样的问题？

陶哲轩： 我认为，是的，我的主要建议是他们必须灵活。我认为数学正在变得更加技术化和协作化。也许在50年前，你可以专注于数学的一个子子子领域，几乎不与其他数学家互动，并以此为生。然而，现在这基本上是不可行的了。

我认为数学是更大的生态系统的一部分，这是一件好事。有了人工智能，它解锁了比以前想象的更广泛的合作。你可以与你真的没有专业知识领域的科学家合作，但是人工智能可以帮助你快速掌握基本知识，并充当科学家之间的通用翻译。

所以，是的，保持开放的心态，也要认识到这些工具的局限性。你不能盲目地使用这些工具；你仍然必须运用你的人类技能来监督人工智能。是的，它不是魔杖。

主持人James Donovan： 是的，我认为即使我们有OpenAI，也不会鼓励人们在没有相当专业的知识和监督的情况下这样做。也许对你来说，马克，有一个类似的问题，但稍微简化一点，那就是基于你看到的轨迹，你鼓励学生现在学习哪些技能，以便随着时间的推移最大程度地利用这些模型？

马克·陈： 是的，是的。我的意思是，老实说，像技术领域，我们仍然需要技术领域的专家，他们能够与这些工具很好地协同工作。我喜欢保持灵活性的总体建议，对吧？

就人工智能研究而言，我认为对于各种领域的人来说，至少了解神经网络是如何工作的，它们是如何训练的，它们的动态是什么样的，以及它们的局限性是什么，将非常有帮助。这意味着，我认为人们越多地尝试使用人工智能并了解它如何加速他们的工作，他们就会越有效率。

我确实认为，在未来几年内，每个人的效率都会产生倍增效应。希望这个倍增系数会远大于一。然而，我相信那些有效地利用人工智能工具的人，总的来说，会比那些对此视而不见的人更有效率。

主持人James Donovan： 是的，这当然引起了共鸣。我想知道关键问题是否已经不再是它们是否有用，而是它们进化的速度。在某种程度上，Terry，你一直在内部观察这些模型在不同时刻变得更好。我最近确实听说，它们在IMO（国际数学奥林匹克）和银牌水平上的表现有所提高，虽然为了实现这一点，背后做了一些工作。你对这种进步的速度感到惊讶吗？

陶哲轩： 是的，它既超出了我的预期，也低于我的预期。是的，所以看起来对于任何可以生成类似任务数据的任务来说，它表现都不错。例如，关于IMO的事情，DeepMind生成了大量的合成证明。实际上，也有很多合成的失败证明。这实际上是其中的一个秘密。所以很多我以为几年内都无法完成的任务现在都完成了。

另一方面，每当你超越有数据的领域，进入一个只有世界上10个人真正深入思考过这个问题，这样的研究级别的问题时，人工智能工具仍然不太有用。我有一个正在进行的项目，不是证明一个大问题，而是证明大约2000万个小的数学问题。我认为这项任务对人工智能来说是理想的，因为它们可以处理其中的一部分。

但事实证明，这个项目研究的所有问题中，可能有99%可以通过更传统的计算暴力方法解决。剩下的1%，相当困难，仍然需要大量的人工干预。尝试过的人工智能工具可以恢复大部分（99%）相当简单的问题，但它们并没有真正对真正具有挑战性的问题的核心部分做出贡献。

所以这可能只是当前技术的状态。我认为，在看到它们能够自主解决这些研究级别的问题之前，还需要有相当多的突破。

马克·陈： 是的，我想谈谈我脑海中的一个轶事，它说明了这种既令人印象深刻，同时又有进步空间的角度。我想说的是，我们今年也用我们自己的模型参加了IOI（国际信息学奥林匹克）。我认为一方面，每个问题确实需要大量的样本。我想我们在博客文章中宣布，每个问题需要10,000个样本，才能从模型中提取出金牌水平的表现。这感觉很多，但与此同时，它竟然能做到这一点，这让我感到难以置信。而且，其中一些是非常反模式的问题。所以，它处于某种状态。我只是对真正发挥出这种能力感到非常兴奋。

主持人James Donovan： 是的，当你感觉自己以某种方式几乎作弊了，因为你重建了问题时，总是会感到有点智力上的不满足。但当我退后一步时，我想知道有多少科学进步只是许多这样的事情堆积在一起。然后它创造了一种范式转变，事后看来非常聪明，但实际上只是把小事情组合在一起。在某种程度上，编程的乐趣恰恰在于此。当你重新定义一个问题，使其可以被解决时，必须首先从第一性原理出发，逐步解决。但这确实引发了我的一个问题。

也许我们在这里讨论的是，我们正在教模型以一种特定的方式进行推理，而这种类型的推理对于某些类型的问题效果很好。我们是否认为，也许从你开始，马克，然后再到你，Terry，你们是否设想一个世界，其中一类模型可以同时进行许多不同类型的推理，或者更可能是一个世界，其中有单独的模型进行不同类型的推理，然后整合在一起？然后对于你，Terry，你需要看到什么样的推理，才会认为你可以利用人工智能来解决目前它们难以应对的，更具挑战性的一小部分问题？

马克·陈： 是的，我的意思是，拥有一个可以在许多不同领域进行推理的模型，这确实很棒。我认为当你尝试连接许多复杂的系统时，你会做出很多设计选择。我认为简单性是人工智能开发的关键原则之一。我确实认为，当然，你可以建立人工智能以某种方式协作的结构。那也令人非常兴奋，对吧？例如，我们是否可以构建这样一个模型，比如，你是这里的专家，你是这个数学项目的项目经理，你是证明的撰写者，你正在检查10,000个案例之类的。是的，我认为这也是一个非常值得探索的范例。

陶哲轩： 是的。我肯定认为人工智能解决问题是一种非常互补的方式。这是一种非常数据驱动的解决问题的方式。正如你所说，对于某些任务，它实际上比人类做得更好。某些任务中人们感受到的难度已经需要重新调整，因为我们只是没有尝试使用数据驱动的方法来解决某些聚类问题。

然而，有些问题确实很难。例如在数学中，甚至有一些问题是不可判定的，这意味着任何数量的数据都无法解决某些问题。我们实际上可以证明它们无法被证明。所以我认为这不是人工智能的优势所在。如果你想让AI像人类一样参与解决数学问题，它需要在数据稀缺的环境中进行推理。在这种环境中，正在研究一种新的数学对象，你只知道关于它的一些事实，或者可能与另一个已知的数学对象有模糊的类比。

在这些情况下，人类的推理能力很出色。人类实际上非常擅长从少量数据中推断，并找出下一步该做什么。而人工智能在这方面却很挣扎。将智能视为一维尺度，比较谁更好，人工智能还是人类，可能是一个错误。相反，我认为我们应该将它们视为互补的，每个都有自己的长处和短处。

马克·陈： 我真心希望，如果我们能在研究项目中取得成功，我们也能拥有非常数据高效的推理器。所以，希望我们能证明你是错的，Terry。

主持人James Donovan： 当他讲话时，我看到了格伦和马克的眼神。我能感觉到米奇要跳出来插话了。

陶哲轩： 好的，嗯，我很乐意被证明是错的。

主持人James Donovan： 谢谢。我们的时间快到了。所以，为了结束这次讨论，并把它们联系起来，如果你们明天都被任命为大学的副校长，并得到一些有意义的预算，你们会如何设置才能使其有效？Terry，就你而言是数学系，马克，也许是更广泛的科学系，你们会投资哪些基础设施来真正利用这些新技术？

陶哲轩： 这是个好问题。我能想象有一个集中式的计算机资源，可以运行本地模型，你可以自己调整等等。这有点难。我的意思是，技术变化太快了，现在对任何特定硬件或软件的投资可能在几年后就不那么重要了。

是的，当然需要一个地方，可以把来自不同学科的很多人聚集在一起，找出一起使用这些技术的方法。我的意思是，我们已经在很多大学开发了这种技术中心类型的东西。

所以，是的，但我认为它必须非常自由，因为技术是如此不可预测。只是，是的，我们需要不同的部门相互交流，看看哪里有协同效应。

主持人James Donovan： 你是否认为数学库和那些定理证明的构建模块等方面仍然存在担忧？

陶哲轩： 是的，我的意思是，现在已经有这种志愿者众包的努力了。美国的联邦资助机构才刚刚开始为这方面提供一些资金。所以，大学通常没有做过这种基础性的基础设施类型的工作。是的，这可能是一个政府必须发挥领导作用的领域。

马克·陈： 马克，你呢？是的，我的回答会非常简短。我认为OpenAI的做法是对的。你知道，建造一台非常大的计算机。让我们弄清楚如何把计算机变成智能。

主持人James Donovan： 这是一个简洁的回答，我想山姆也会为此感到骄傲，马克。所以这很有道理。好吧，各位，我只想说非常感谢你们今天抽出时间与我们交谈。我们将从这里进入问答环节。所以，任何对你们两位有更棘手问题的人都会有机会提问。特别是Terry，感谢你拨打电话进来。感谢你抽出时间进行这次对话。就这样，我把话筒交给娜塔莉。

主持人Natalie Cohn： 非常感谢你们，伙计们。我们问答环节见。所以，大家，如果你们想向特伦斯、詹姆斯或马克现场提问，请点击刚刚弹出的实时通知链接。或者，你可以进入屏幕左侧的议程选项卡，然后进入问答会议室。我稍后在那里见。我们将回答所有或尽可能多地回答你们在聊天中提出的问题。一会儿见。爱德华多，让我们开始吧。你愿意自我介绍一下吗？

爱德华多·桑塔格： 是的，我是爱德华多·桑塔格。我接受过数学训练，现在也在做人工智能，大概在50年前，确切地说，是52年前。但我的问题是给Terry的：40年前，35或40年前，我正式通过当时在罗格斯大学的同事菲利克斯·布劳德，向美国数学学会提出了一个大型数学项目。这个项目类似于当时物理学家的超级对撞机。我建议用某种统一的语言将基本的数学定理计算机化并形成一个数据库，以便人们能够轻松地参考和找到这些定理。然而，我被排除在外了；他们认为我疯了。

但显然，现在我们正处于可以开始实现这种情况的时刻。我的问题是，也是我在问题中提出的，关于在进行数学研究时最令人沮丧的事情。当你试图证明一个小引理时，你知道肯定有几百人在不同的领域，如代数几何、交换代数、群论或偏微分方程中证明过它。然而，很难找到答案，你常常最终自己证明了它。

所以，我的问题是：你是否认为在相对较近的未来——不是指20年后，而是指三、四或五年后——有可能利用某种学习能力？这可能涉及基于注意力的学习方法，在其中识别模式，例如什么是嵌入的，什么是相关的。你认为这真的有可能吗？你确切地知道我在说什么，对吧？

陶哲轩： 数学的语义搜索会很棒。O1实际上已经做了一些这方面的事情。我做了一些实验。比如，如果你有一个听过的定理，你认为你知道它的名字，或者你认为你大致知道它是什么，但你没有名字。所以你不能直接在搜索引擎中输入。你不能用非正式的术语向LLM描述它。它通常可以告诉你，哦，你在想这个特定的定理。对于更晦涩的结果，它埋藏在档案中的20篇论文中，我们现在还没有这种能力。这是一个很棒的问题。我向很多在机器学习领域交谈的人提出了这个问题。有没有办法提取出数学结果的本质并进行搜索？现在，最好的方法是众包。你去看一个问答网站，比如数学溢出。

爱德华多·桑塔格： 对，那行得通，是的。

陶哲轩： 这基本上就是我们现在的状况。

爱德华多·桑塔格： 好的，我明白了。谢谢。

主持人Natalie Cohn： 谢谢你，爱德华多。很高兴见到你。莉齐，接下来该你了。但在我们跳到你的问题之前，我们要让我们的技术制片人找到你并取消你的静音。我们先给特伦斯和马克一个来自罗宾汉首席隐私官尼洛伊·森古普塔的问题。尼洛伊问，特伦斯，对于这些模型在解决以前未解决的数学问题时，目前和未来将继续拥有的硬性约束（如果有的话），你的直觉是什么？

陶哲轩： 哦，硬性约束非常少。我的意思是，有一些问题是真正不可判定的。还有一些我们知道暗示了其他难题的问题。我们知道它们对许多标准技术免疫。但总会有惊喜。我的意思是，在人类数学中，每年都有一个问题被人们认为是不可能的。而一些人提出了一个巧妙的新想法。这就是数学的魅力所在。我们实际上不知道什么是困难的。所以我认为硬性约束非常少。

主持人Natalie Cohn： 马克，你有什么补充吗？

马克·陈： 是的，不，我基本同意这个观点。我认为“难”这个词用得太强了。我的意思是，当然，我认为数学的某些方面对于今天的模型来说是困难的，比如提出正确的问题，你懂吗，对构建什么样的抽象概念有一种审美，或者诸如此类的东西。是的，我认为它们在那种“提出问题并尝试解决”的环境中表现得更好。

主持人Natalie Cohn： 谢谢，马克。莉齐，欢迎来到论坛。你愿意自我介绍一下吗？

现场提问者莉齐： 好的。我目前是斯坦福大学的医学生，学习神经科学，如果你不介意我这么称呼的话，那就是真正的神经网络。我正在尝试应用LLM或AI模型（我还在学习如何使用它）进行AI药物发现。但是，我没有关于这方面的问题，因为它会引发太多问题。

我的问题更多是关于我遇到的一个技术问题。我住在旧金山，上周末想去旧金山歌剧院。我在ChatGPT中输入，询问《卡门》什么时候演出，因为我想看那场演出。ChatGPT告诉我，我可以在周六去看。

然而，当我去了那里时，并没有演出；它只安排在周日下午2点。有了这个技术难题，我开始想知道，当我在药物发现中应用AI时，我如何才能更谨慎地信任或使用这个系统。我担心我可能会遇到类似的无法验证的错误，这可能会产生更长期的影响。很抱歉提出这个问题。

马克·陈： 哦，当然。这是一个非常合理的问题。而且我认为我可能是最应该回答这个问题的人。事实上，我认为我应该鼓励你今天尝试使用带有搜索功能的模型。我认为现在已经有方法可以让模型浏览并将其响应建立在输出源的基础上。所以如果你今天使用搜索，它会引用特定的网站或特定的来源，这些来源反映了真实情况。我认为未来的版本会非常精确。它们会告诉你这些网站中的哪些地方可以找到答案，并自己找到参考资料。是的，我确实认为未来的模型将以这种方式非常扎实。比如，你将能够准确地追溯到这个“真实信息点”来自哪里，它从哪里获得了特定的信息。但我今天鼓励你尝试使用启用搜索的相同查询。

现场提问者莉齐： 我用的是我以前用过的旧版本...

马克·陈： 所以是的，O1不是一个支持搜索的模型。

现场提问者莉齐： 我会...好的，那么你能解释一下什么是搜索吗？

马克·陈： 是的，有一个图标。我知道今天它很令人困惑。我们会统一并使一切更加简单，但那里有一个地球图标。它本质上使模型能够搜索互联网以获得结果。

主持人James Donovan： 马克，你在客户支持方面很有前途。

主持人Natalie Cohn： 莉齐，非常感谢你的提问。很高兴见到你。回头见。接下来轮到丹尼尔·麦克尼拉进行现场提问。在我们准备他的时候，我将提出一个来自平台AI创始人、罗格斯大学教授艾哈迈德·埃尔加迈尔的问题。我想和大家分享一下，埃尔加迈尔博士是AI艺术的先驱之一。我们论坛里存档了他非常精彩的演讲，任何人如果还没见过他或者没有参加过那次演讲，可以去看看。他的问题是，你认为要从现在AI可以解决数学奥林匹克竞赛类问题，到AI可以解决博士水平的数学问题，还需要什么？我认为马克或者Terry，你们任何一个都可以回答这个问题。

陶哲轩： 好的。我认为这取决于是否有人类协助或没有人为协助。我认为如果有人的监督，它肯定会有所帮助。它已经可以在数学项目中完成很多比较琐碎的任务。我认为，正如我之前所说，它缺乏很多策略、战略规划，以及当没有数据告诉你该怎么做时该做什么。我不知道除了让人类专家参与之外，如何解决这个问题。

马克·陈： 是的，从宏观层面，稍微拉远镜头来看，我确实认为，如果你看看自动驾驶汽车是如何发展的，对吧？什么时候才能达到你可以信任汽车把你从A点带到B点而无需监督的地步？我认为其根本的发展过程不是什么魔法。我认为它只是随着时间的推移越来越可靠。你从决策的准确率达到90%开始，然后是99%，然后是99.9%。当然，汽车不能保证它们总是会成功，或者不会犯错。但我确实认为，指导和监督的程度可能会随着时间的推移而减少。你可以信任模型来完成更多独立的任务，这些任务需要更多独立的更长时间的思考过程，而且它会变得越来越可靠。

主持人James Donovan： 谢谢，马克。我想补充一点，我认为这个领域开始变得非常有趣的是，对于像物理和数学这样的学科，其中一些答案至少是公理化的，你可以从第一性原理开始，你可以看到训练周期和改进的推理模型如何帮助你获得这些答案。但是，我想到生物学的应用，其中有大量的冗余，它是概率、第一性原理和上下文决定的某种组合，你想知道这是否需要不同的方法，是否也适用于这种通用的第一性原理方法，当我们探索这些东西时，我认为你开始对解决这些相互关联、相互依赖的问题集，与经典的自上而下方式相比，需要什么条件才能成立获得一些非常有趣的见解。

主持人Natalie Cohn： 谢谢，詹姆斯。丹尼尔，欢迎。我想上次我们交谈的时候是几年前，你正在完成你的博士学位。你愿意告诉我们你现在在哪里吗？向社区介绍一下你自己？

现场提问者丹尼尔·麦克尼拉： 好的。大家好，我是丹尼。我在加州大学伯克利分校获得了数学学士学位。大约六个月前，我还是威斯康星大学人工智能科学专业的博士生。现在，我实际上在法学院学习人工智能和法律相关的主题。所以我做了很多不同的事情。

我对陶教授的问题是关于数学的历史发展。传统上，数学理论是首先发展起来的，然后其他领域的研究人员，如物理学和化学，将该理论应用于他们的问题。

现在，随着人工智能的兴起，你是否看到任何反馈以相反的方向发展？我知道在物理学中，人们正在广泛使用机器学习来模拟偏微分方程（PDE）的计算解和其他无法使用传统方法解决的问题。

你是否看到数学家从其他领域获得任何关于理论的新见解，特别是考虑到我们现在可以生成更多的数据？

陶哲轩： 是的，不是说，我的意思是，数学一直是一条双向道路。我的意思是，物理学家们有一些发现，数学家们没有办法解释，然后他们就必须发展出新的数学理论。你知道，狄拉克发明了一种叫做狄拉克δ函数的东西，按照正统数学的观点，它不是一个函数，所以我们不得不扩大我们对“函数”的定义。一直以来都是双向的。所以我可以想象，一个非常实用的、科学驱动的应用，也许由人工智能驱动，会发现一些新的现象，然后试图去解释它。它将通过经验被发现。然后，数学家会被激励去寻找理论解释。所以，理论科学和应用科学之间一直是一条双向的道路。

主持人Natalie Cohn： 很高兴见到你，丹尼尔。好的，请把阿什什·巴蒂亚调上来。在我们做这件事的时候，从聊天中提一个问题。所以特伦斯，我想这个问题是给你的。我希望我能准确地读出这些。通用近似定理会被推翻吗？最近一篇关于卡尔莫哥洛夫-阿诺德网络的论文引起了很多关注。你有什么看法？

陶哲轩： 我不知道这个具体的结果。我的意思是，通用近似定理告诉你，原则上，任何操作都可以用神经网络来建模。但这只是一个纯粹的存在性定理。它没有告诉你如何找到这个神经网络。它可能太不实用了，无法实际使用。

但它确实告诉你，对于非常复杂的问题，使用神经网络在理论上没有障碍，不像感知器，它没有通用近似特性。总的来说，整个机器学习的理论实际上落后于实践几十年。

我们有一些基础性的理论成果，比如通用近似定理，但是我们没有一个很好的解释，为什么新单元在某些任务中效果这么好，而在另一些任务中却很糟糕。

是的，所以肯定有很多理论工作要做。

主持人Natalie Cohn： 谢谢你，Terry。阿什什，欢迎来到论坛。你想自我介绍一下吗？

现场提问者阿什什·巴蒂亚： 谢谢你，娜塔莉。我叫阿什什·巴蒂亚。我在微软担任产品经理，我为人工智能构建无代码平台。所以我的问题是，我实际上想描述一个我用来写东西、做工作的流程，那就是我使用O1来进行深入的思考，思考我正在做的任何主题。然后我使用4o进行研究。最后，这些是我浏览器上的不同标签。然后我最后使用带有Canvas的4o来把所有东西整合起来，对吧？所以这是一种人为策划的工作流程。我想知道未来是否有更简单的方法来做到这一点。

马克·陈： 非常好的问题。我在之前的回答中稍微提到过这一点，但是现在模型太多了。今天会让人感到困惑的部分原因是，O1总是被视为研究预览。我们只是想向世界展示更多高级的推理能力。我们将让它变得不那么混乱。我认为你想把所有东西整合在一起，让它变得非常无缝，我认为这将为你提供更好的体验。所以，是的。再次强调，很难承诺一个具体的时间，但我认为你的工作流程会变得更加简单。

主持人Natalie Cohn： 好的，请把韦尼特·阿皮乌调上来。韦尼特，你得告诉我你的名字怎么发音。如果我刚才的发音不准确，请原谅我。然后我们会从聊天中提一个问题。这是来自Insurotics的软件工程师迈克尔·斯凯巴的问题。鉴于人类之间的合作能力，多个模型一起推理的多样性是否会激发单个模型无法达到的更高的证明创造力？也许你可以先开始回答这个问题，马克。

马克·陈： 是的。我的意思是，我认为这是一个非常合理的假设。我认为，任何时候你在一个系统中拥有多个智能体，也许这些智能体有不同的激励机制，或者你在它们之间创造一些环境动态，你都可以得到非常有趣的行为了。对我们的人工智能智能体来说，情况也肯定是这样的。

是的。我认为，这其中的一个具体的体现可能是，它们最终会在过去Terry描述的方式中专业化，对吧？比如，一个变成产品经理，一个变成执行者。所以你可以想象它们会发展出特定的角色。

所以，是的，这种专业化是否一定胜过一个单独的、非常强大的思考者？我认为这仍然有点不清楚，但它肯定是非常值得探索的。

是的。我不知道，Terry，你是否想补充一些。

陶哲轩： 我认为我们应该尝试各种方法。我认为，用多种不同的方法来解决这些问题是很好的。我认为，对于那些有更明确的指标可以优化的那些问题。让一组竞争的人工智能来优化这个基准可能比一个非常模糊的任务做得更好，在模糊的任务中，太多的声音实际上可能会让事情更难管理。

主持人Natalie Cohn： 好的，这个问题来自Ankit Kashik，他在沃顿商学院和谷歌人工智能部门获得执行MBA学位。人工智能的可解释性仍然是一个需要额外投资的研究领域。从系统的角度来看，数学理论可以在哪里帮助对人工智能进行形式化描述？

陶哲轩： 我认为这是一个理论实际上非常落后的领域。我的意思是，我们有一些难度结果表明，至少目前的模型，我的意思是，实际上要准确地解开，给定一个模型，到底采取了什么路线才能到达那里，这在理论上是困难的。目前的架构根本不是为了做这种追踪而设计的。我的意思是，这应该是可以实现的，但我的意思是，这会有一个权衡。我的意思是，这会在性能和训练等方面造成巨大的损失。所以，我的意思是，我们现在不这样做的原因。

人们开始对模型进行一些后期的统计分析。比如，你可以取出一个新的模型，关掉它的一部分，或者把它的一部分与其他东西交换。你可以开始看到网络中哪些部分对于得到一个答案最为关键。但是，是的，它实际上仍然有点经验主义。我们并没有一个真正强大的理论来解释这一点。

马克·陈： 是的，我基本同意这个观点。我认为现在的可解释性很大程度上是一门经验科学。有很多机械可解释性技术能够有效地识别子网络或网络中负责特定功能的部件。但是，除非你以某种方式在架构上将可解释性“烘焙”进模型中，否则很难说清楚，比如，哦，模型之所以这样做是因为这个原因。

主持人Natalie Cohn： 谢谢各位。接下来请 Adi 和 Raj 上台。在我们准备他们的同时，这里有一个来自斯坦福大学硕士生 Belinda Mo 的问题：你们认为在定理证明方面，特别是与 Lean 的 mathlib 相关时，哪些神经网络架构和数据集格式最有前景？

陶哲轩： 我不认为有哪种特定的架构会更好或更差。我认为我们实际上需要进行实证研究。我们需要创建包含数千个定理的数据集，并测试不同的架构，看看会发生什么。我们目前还没有理论预测哪种架构会奏效。

马克·陈： 是的，非常正确。我认为在某种程度上，语言建模方面的架构已经趋于一致。通常情况下，都是 Transformer 的变体。我认为，现在人们正在探索下一代 Transformer 可能是什么样子。比如，一些基于状态的模型，但现在哪种模型特别适合定理证明，仍然有待验证。

陶哲轩： 我认为人工智能中一个令人惊讶的事情是，那些试图融入特定领域知识的人工智能，往往不如通用人工智能表现好。这就是所谓的“苦涩的教训”，对吧？实际上，我们还不清楚为什么会这样。

马克·陈： 是的，我的意思是，在某种程度上，那些最能利用底层硬件的架构，也许表明这比任何你可能做的特定工程更有价值。

主持人Natalie Cohn： 我们这里，Juanita 遇到了一些技术问题，所以我要从聊天中再选一个问题，这个问题来自 Visual Academics 的主任 Shirin Schaff。对于那些没有受过数学训练，但又想与 AI 和数学问题合作的其他领域的研究人员，你们有什么建议？常见的陷阱是什么？如何避免这些陷阱？

陶哲轩： 我认为目前还没有足够多成功的例子来判断常见的陷阱是什么。那些似乎正在奏效，并且未来非常适合这种模式的项目，都是大型的协作项目，通常在 GitHub 上进行。在这些项目中，任务可以分解成许多小部分，其中一些可能需要数学专业知识，而另一些可能需要不同科学领域的专业知识，或者需要利用人工智能的设施。但是，重要的是要注意，你不必成为所有方面的专家。

这种协作方式才刚刚开始。我目前正在运行一个试点项目，以探索这种方法是否可行。然而，目前还没有足够多的此类项目可以立即加入；现在可能只有三四个这样的倡议存在。

我认为你需要与专家联系，找到合适的合作者——比如专业的数学家和人工智能专家。此外，这个过程需要高度的敏感性；目前，你无法独自启动一个项目，因为缺乏模型来指导你实际该做什么。但是，我们需要尝试各种方法，看看哪些方法能够产生共鸣或“奏效”。

主持人Natalie Cohn： 谢谢各位。最后但同样重要的是，请大家欢迎 Jordan。Jordan 是论坛的资深成员，从一开始就和我们在一起。他有着独特的视角。他有谷歌的背景，同时也是一位营销专业人士。所以我很期待听到他的看法。

提问者Jordan： 你让我这个棕色皮肤的人脸红了。非常感谢你，Natalie。你今年做得非常出色。论坛很棒，嘉宾也很棒，一切都很棒。Caitlin 也是。Mark，谢谢你的演讲。谢谢 Terrence，也谢谢 James。只是想问一下你，Mark，你看到人们没有谈论到，但你认为应该得到更多关注的 O1 的一些很棒的用例是什么？谢谢。

马克·陈： 是的，这也是个很好的问题。我认为存在一种误解，认为推理只存在于数学和编码中。我们看到的很多用例都展示了在不同领域的推理能力，对吧？

我认为，在语言学中，人们可以真正解开并帮助理解语言学，甚至是语言学难题，破解密码，并从数据中辨别模式。我希望大家关注一下纯粹的数学和编码之外的用例。虽然它在这方面表现出色，但推理是一种非常普遍和广泛的能力。

另一个例子是，James 和我与材料科学组织和其他外部组织建立了合作关系。他们也发现推理在那里非常有效。

主持人Natalie Cohn： 谢谢你，Mark。Terrence 或 James 还有什么补充吗？好的。James，你有什么要说的吗？

主持人James Donovan： 我只是想呼应 Mark 的观点，有时人们会倾向于认为，除非模型能够完美地回答每一个科学问题，否则就没有任何用处。要么你需要 100%，要么什么都不要，这是一种二元对立的看法。但是，通常能够加速较小部分的工作，正如 Terry 所说的更广泛的数学领域，本身就是巨大的累积收益。而且，科学的影响往往不仅在于理论工作或实验工作，还在于将其商业化或将其带入现实世界的环节。我们看到在这些方面都取得了巨大的进步，尤其是在最后一个环节，我希望这最终能为世界带来更好、更多的科学成果。

陶哲轩： 我听说大型制药公司从使用人工智能工具中获得的最大收益之一，实际上是加快了他们的监管文件流程。

主持人Natalie Cohn： 太棒了。非常感谢各位。用如此精彩的演讲来结束 2024 年真是太好了。我们会通过电子邮件将所有这些内容发送给你们。录像将在下周初在论坛上发布。正如 James 所说，这仅仅是我们深入研究新的推理模型如何加速数学和科学的开始。我们迫不及待地想在 2025 年再次接待你们。

关注公众号后设🌟标，掌握第一手AI新动态

往期精选

瓜哥AI新知

紧追AI业界一手观点、访谈、动态，点滴构建AI底层认知