深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

学术 2024-11-15 10:29 北京

Emmanuel Candès

【编者按】近年来，大语言模型（LLM）等黑箱系统在预测领域取得了大量成功，这表明有时即使完全不知道某事物的工作原理，也可以做出成功的预测。

日前，Quanta Magazine 发布了法国统计学家 Emmanuel Candès 接受“The Joy of Why”栏目主持人 Steve Strogatz 的专访播客。

在访谈中，Candès 深入探讨了数据科学和机器学习在应对复杂预测挑战中的作用，特别关注了高风险场景下人工智能（AI）模型的准确性和可靠性。

他剖析了当前预测建模技术的局限性，倡导一种能够量化人工智能预测不确定性的重新校准方法，尤其是在这些系统作为黑箱操作时。

学术头条在不改变原文大意的情况下，对访谈内容做了简单的编译。内容如下：

STEVEN STROGATZ：预测是一项挑战，它贯穿于我们生活的方方面面，而且往往是我们想都没想过的。今天下午会下雨吗？股市对最新消息会有什么反应？妈妈想要什么生日礼物？

通常情况下，我们会建立一个知识基础和理论认识，至少在科学领域是这样，然后运用我们所知道的来预测未来的结果。但这种方法面临着很大的局限性，尤其是当要分析的系统非常复杂且人们对其了解甚少时。

我是 Steve Strogatz，这里是 Quanta Magazine 的播客“The Joy of Why”，我将与共同主持人 Janna Levin 轮流上台，探讨当今数学和科学领域最大的未解之谜。

在本期节目中，数学家和统计学家 Emmanuel Candès 将与我们共同探讨：

数据科学和机器学习如何帮助我们解决前所未有的复杂预测问题？
我们应该对它们的预测抱有多大的信任或怀疑？
我们能找出量化这种不确定性的方法吗？

Emmanuel Candès 是斯坦福大学数学与统计学系主任兼教授。他的研究领域涉及数学、统计学、信息论、信号处理和科学计算。他是美国国家科学院院士，曾获麦克阿瑟奖、科拉茨奖和拉格朗日奖。

Emmanuel，欢迎来到“The Joy of Why”节目。

EMMANUEL CANDÈS：感谢你们的邀请，既然你提到了美国国家科学院，让我首先祝贺你当选。这真是太棒了。

STROGATZ：哦，你太客气了。谢谢，我很荣幸能和您以及我们其他尊敬的同事们一起共事。

首先，让我们谈谈时下每个人都在思考的问题——机器学习模型。我们一直听说过很多关于它们的事情。我们知道，它们可以浏览海量数据集，并经常捕捉到人类无法发现的模式。但人们经常把这些模型称为黑箱。我想知道，你自己会不会用这个词，如果会，黑箱是什么意思？

CANDÈS：正如你所说，机器学习算法将过去收集的数据作为输入。然后给定一组特征，尝试对未知标签进行预测。

因此，预测建模与统计学领域本身一样古老。从 Francis Galton、Karl Pearson 和 Ronald Fisher 开始，统计学家们就一直非常注重从数据中进行预测。但他们使用的是相对简单的模型——可以用数学方法分析的模型，也就是我们在大学教授的模型，你有时可以为这些模型提供可靠的推论。

但现在我们已经超越了这些简单的回归。我们正在使用深度学习、梯度提升、随机预测——很多技术已经变得非常流行，有时还会结合使用。而现在，这变得非常复杂，以至于非常困难。我们用黑箱来指代那些复杂到无法分析的算法。当然，也有很多理论家试图了解黑箱里发生了什么。

STROGATZ：谢谢，非常精彩的解释。这似乎是统计学的一个全新领域。

CANDÈS：当然。但这并不意味着我们必须放弃迄今为止所做的一切。我的研究小组一直在做的事情，以及目前全球许多研究小组正在做的事情，就是尝试获取这些黑箱的输出并将其视为统计对象。

因此，我们看到统计学的一个分支学科，就是在不做任何建模假设的情况下，对这些黑箱的输出进行推理。这样分析的结果才值得信赖，我们才能量化不确定性，从而做出可靠的决策。因此，所有诸如 p 值和置信区间之类的东西，都以这样或那样的方式存在。

P 值的概念，本质上是一个量化的指标，用来衡量你对某个实验结果的惊讶程度。在黑箱的背景下，如果黑箱做出了预测，我仍然可以问我应该对这个预测感到多么惊讶。因此，我需要对意外因素进行量化。因此，我希望能够将预测结果转化为你所说的 P 值，这样我就可以实际校准从黑箱中得出的结果。

因此，令人惊讶的是，我们不必放弃我们一直在做的事情。大部分情况下，我们正在迈向一个参数模型越来越少的世界，但结果经过良好校准的概念——量化不确定性——仍然存在。

STROGATZ：这太有趣了。我很喜欢你的说法，就好像黑箱可以一直黑下去。我们不必去看模型的底层或内部，就能分析出发生了什么。因此，我们就像是在用传统统计学的旧方法来量化不确定性，并为这些“黑盒”模型的新世界重建理论。

CANDÈS：当然。这种新世界的重建有很多不同的方式，但我给你举个例子。让我们想象一个不远的未来世界，在这个世界里，人们会向大学提出申请，比如说，由于大学收到的申请太多，我们将至少把部分决定过程外包给一个黑箱。假设现在有学生申请康奈尔大学，也就是你的母校，而你决定用黑箱来预测他们在康奈尔大学的表现，对吧？那么问题来了，这些预测有多精确？

但你可以做的是，你可以说：“好吧，我已经训练了我的模型，现在我已经预留了一组学生，我知道他们的结果，而且我可以实际看到黑箱是如何预测这些结果的。现在，我可以试着了解，对于什么样的学生误差大？什么样的学生误差小？我从这个黑箱中得到了什么样的准确度？

现在，当你使用黑箱筛选一些候选人时，你可以从中进行校准。因为你已经观察到了黑箱预测与测试集之间的不匹配，这样你就能稍微了解黑箱的准确性，以及你实际上能得出什么结论。因此，通过观察黑箱对一组学生的预测结果（你已经得到了这些学生的预测结果和标签），你实际上并不能对这些学生的表现做出一个点预测，但你可以得到一个预测区间，这个区间有可能在规定的时间内包含真实的成绩。

当我这么说的时候，我是说你没有模型，没有任何高斯分布。你只是利用了随机抽取学生的事实，观察黑箱对随机子集的作用，并利用这些观察结果实际推广到未见过的学生。

这在很大程度上体现了统计学精神，即你收集申请学生的特征数据，以及黑箱对这些学生的描述。你从中学习，以便能够说出对未来有用的事情。

STROGATZ：很好，我真的很想解读一下这个例子。它太有启发性了。我觉得，“特征”和“标签”这种语言可能有点抽象。让我看看我是否明白你的意思。

但是，如果我想象一群高中生申请康奈尔大学或斯坦福大学，无论哪所学校，他们的特征可能是高中 GPA、是否参加过校队运动，诸如此类。你会把这些称为“特征”吗？

CANDÈS：是的，这些都是特征。这些基本上就是你申请文件中的内容，对吧？因此，这些都是你对申请人的了解，可以被数字化。但我认为，我们现在生活在一个现代化的世界里，所以你的论文可能是一个特征。因为你的文章会变成一串数字。这就是大语言模型的革命。因此，这也是一个数字特征，你可以用它来预测，你知道，你的英语写作水平如何？你的词汇量有多丰富？你知道，有很多东西你都可以使用。

STROGATZ：是的，但就学院可能想要预测的内容而言，简单地说，如果我们说我们想要预测学生毕业时的 GPA 呢？

CANDÈS：举个例子。也可以更简单：学生能否在四年内毕业？在这种情况下，我们来看第一个例子：你想预测两年本科教育后的 GPA。我可以说，黑箱对这些学生的预测是什么？因此，通过观察误差的分布（即学生的真实 GPA 与黑箱预测之间的差异），我可以了解黑箱对随机学生的典型误差。

因此，当一个新学生进来的时候，我已经知道了我将会遭受的误差，我可以给你一个区间，这个区间可能包含了学生的真实结果，而不是仅仅给你一个分数的预测。让我们惊讶的是，对于某些应用或某些学生，这个区间可能很短。我们对他们的表现相当有信心。而对其他人来说，这个区间可能会很宽。

STROGATZ：在这种情况下，区间，这个例子中的区间是多少？

CANDÈS：我预测一个区间是 2.9 到 3.9，所以中心在 3.4 左右，另一个区间是 3.3 到 3.5，区间要短得多。它们的中心相同，预测相同，但范围却大不相同。

如果我是招生官，我想了解一下我的预测引擎，对吧？比如，你的预测有多准确？你的分数预测的不确定性程度是多少？

如果我们是做金融的，我有一个投资策略，我说：“Steven，我可以向你承诺 6% 的回报率，”6% 正负 1% 和 6% 正负 10% 的情况是完全不同的。如果你属于第二种情况，你可能会损失大量资金和客户。

STROGATZ：好的，很好。所以，你所举的这个例子，无论是在金融领域还是在 GPA 领域，都确实有助于强调为什么我们不仅要关注平均值——或者我们可能称之为“点估计值”——还要关注我们可能有较高置信度的区间。我的意思是，我希望任何人都能明白，能够预测区间而不仅仅是数字是多么有价值。

STROGATZ：欢迎回来。我们一直在和 Emmanuel Candès 讨论统计学、预测模型以及其中固有的不确定性。

现在让我们来看另一个真实世界的例子。我在这里考虑的是预测模型在医学上的应用。药物研发——这当然非常重要，事关生死。例如，有一种做法是利用人工智能生成人工数据，以增加我们的样本量。这听起来有点难以想象会奏效，但显然这是一种有用的策略。

CANDÈS：所以，你的问题非常有趣，我认为你再次触及了统计科学作为一门学科的未来。

统计学一直是一门实证科学，它试图让周围的世界变得有意义。因此，现在我们正在处理诸如 Gen AI 之类的极其复杂的机器学习算法。

所以，为了了解药物，我们从体内开始：比如，我们只是给人注射一些东西。然后，我们在体外进行研究。现在我们正转向计算机模拟，正如你所指出的那样，对吧？也就是说，现在我们想使用算法来预测药物的作用。

假设你是一家大型制药公司，拥有一个庞大的化合物库。可能有 4 亿、5 亿种。你想知道这些化合物中哪些能真正与目标结合，那你该怎么办？那么，你该怎么做呢？

嗯，你应该逐一研究你的化合物，并试验它们是否会与你的目标结合。但你可以想象，这需要大量的时间和金钱。因此，现在人们开始使用机器学习来猜测是否会结合。在过去几年里，我们看到了 AlphaFold 这样的东西。例如，我们看到了很多试图通过氨基酸序列来预测化合物形状的模型。

现在，这并不能取代物理实验，但机器学习在这种情况下所做的，是优先选择你应该首先尝试的化合物。我们在这一领域所做的事情之一就是说：“好吧，我们要训练一些非常奇特的模型——它们真的是黑箱。我的意思是，它们非常复杂，我不知道它们到底有什么用，但它们会产生亲和力分数，即化合物对目标疾病的亲和力。” 我说：“我能相信这个吗？”

于是，在没有任何统计模型的情况下，仅仅通过观察算法在没有经过训练的分子上的预测结果，我们就能够选择[一个]数据自适应阈值，如果你愿意的话，这个阈值表示，如果你选择所有这些预测亲和力高于这个阈值的分子，你就能保证我给你的东西中有 80% 是你真正感兴趣的。

在下游，你会在一些真实的东西上做一些真正的实验。但在这里，非常令人兴奋的是，人工智能可以真正加快确定应转给实验室的药物的优先级。

STROGATZ：不，它赋予了“有根据的猜测”这一概念全新的含义。正如你所说的那样，这些都是经过深思熟虑的猜测，必须经过检验。

CANDÈS：它们仍有待测试。现在还有另一件事，也许这次更可怕一些，那就是，如果我们用 Gen AI 来构建人们可能称之为“数字孪生”的东西呢？即不是物理的东西，但可以由 Gen AI 生成的东西，会怎么样？因此，这里有一条新的研究路线。

例如，假设我想研究某些药物的统计特性，对吧？问题是我的样本太少，对吧？比方说，我想估算出哪部分药物具有某种特性。问题是，我有大量的氨基酸序列，而我还没有测量过它们的特性。你可以想象，现在的趋势是使用一个预测模型，一个黑箱，用预测代替实际测量，然后假装这是真实数据。然后对这些预测值求平均值，并得出具有这些属性的药物的总体比例。这是错误的，因为这种方法引入了偏差。

我们想利用这个预测模型，利用 Gen AI 来填补缺失数据，从而创建新的数据集。但与此同时，我们需要了解如何消除偏差，从而得出科学有效的结论。

让我给你们举个例子。假设我只想估计一个随机变量的平均值。我们称之为 y。我有一些特征，我们把它们称为 x。那么我可以尝试学习的是，我是否可以拟合一个模型来根据 x 预测 y ？现在我可以用预测值替换真实标签和真实数值（如果我没有的话）。

我可以把它们平均起来，但它们会有偏差。但你猜怎么着？我可以消除偏差，因为我从你给我的标签数据中估算出了偏差。

STROGATZ：很好。

CANDÈS：因此，如果我的方法正确，就能有效地大大增加样本量。如果我的预测具有合理的准确性，那么就好像我拥有了一个大得多的样本量。因此，我能告诉你的准确度就会高得多。

STROGATZ：我忍不住要问你，因为这对我们来说是个难得的机会。你在一个人们称之为”压缩传感“的领域的贡献非常著名。我不知道这是否完全符合我们今天的讨论，但我觉得我想请您告诉我们，压缩传感及其在医学成像、核磁共振成像或其他方面的应用，是否符合我们正在讨论的框架？即使不符合，你能给我们讲讲吗？

CANDÈS：这不完全正确。我认为压缩感知表明稀疏性是一种重要现象。因此，我们现在看到的是，人们测量世间万物，因为我们不知道最终什么才是重要的，对吧？因此，我们需要像你我这样的人来筛选重要的东西。压缩传感理论认为，如果我们测量了很多东西，但只有少数几个东西是重要的，如果我们使用了压缩传感理论提出的那种正确算法，那么我们就应该能够建立一个非常准确的预测模型。

比如，我们会明白，很多变量都与预测结果无关，它会迅速将注意力集中在对结果有影响的变量上，然后建立一个良好的预测模型。

STROGATZ：所以你一直在用“稀疏性”这个词。在这种情况下，它是否意味着所有那些无关紧要的变量，我们都可以有效地将它们的贡献设为零？

CANDÈS：没错。因此，在这种情况下，对于我们的听众来说，它可能会说，尽管我测量了一百万个基因变异体，但表型的分布并不取决于这一百万个基因变异体。它可能取决于 20 个或 30 个，这就是稀疏性。

因此，压缩传感提出的问题是，当某件事情取决于一长串名单中的少数几个未知数时，你该如何去找到它们？

STROGATZ：嗯哼，因此，这种技术或方法可以确定哪些是关键的 20 个数字，或者其他什么小数字。

CANDÈS：没错。让我们把它想象成一个矩阵问题，对吧？我有一个矩阵，它有一百万列，因为这些是所有的基因变异。然后我有一个反应，即 y，这些是这个矩阵的行。如果我想求解一个 y = ax 的系统，比如哪些基因变异对预测 y 很重要？那么，经典理论会说，我需要尽可能多的未知数。但压缩感应理论却说，不，这不是真的。因为如果你提前知道这些基因变异中只有少数几个是重要的，那么你就可以少对付一些人。这就是为什么我们可以开发出不需要一百万病人的表型预测模型。

STROGATZ：太棒了。最近科学界似乎随处可见一个大问题，那就是可重复性危机。我只是想知道，您是否有相关的统计评论。

CANDÈS：是的，你问这个问题很有意思。我想，首先，我要对可重复性危机发表一点看法。它发生在人们拥有大量数据集的时刻，通常是在提出科学假设之前，人们可以使用依赖于数十亿个参数的模型。因此，我首先要说的是，这场危机发生在这个时候并非巧合，因为我给你一个数据集，你就相信它是黄金。你会去尝试一个模型，它不成功，你就会去尝试别的。因此，你要对参数进行微调，对很多东西进行微调，直到有什么东西“咔嚓”一声，这并没有什么不妥。

但我认为，作为一名统计学家，我们需要做的是——我们有很多人都在研究这样的问题——如何才能在选择模型、参数的自由度上建立保障，从而在一天结束的时候，你所声称的发现有机会被独立的实验所重现？

统计界正在开发很多方法，这样当你认为你有所发现时，你就真的有所发现了。因此，这对该领域来说是一个非常激动人心的时刻，现在开发的方法不是真正量化预测中的不确定性，而是以这种方式进行实际校准。然后，当你报告研究结果时，我们会确保你所报告的大部分内容都是正确的。

STROGATZ：好吧，我现在想回到更广阔的范围，比如，甚至是社会范围，来思考一下教育问题。每个有学识或受过教育的公民都应该对概率论和统计学的思想有所了解，包括我们一直在谈论的现代版本。我想知道你们对此是否有想法。作为教育者或传播者，我们可以做些什么来提高统计知识？

CANDÈS：这个问题问得好。我认为我在低级统计教学中看到的是对公式的依赖——我应该在什么时候应用哪个公式？我认为这毫无帮助。

学生时代，我学习的当然是数学推理，这很重要。在高中和大学期间，我又学习了物理推理。这与数学推理截然不同，而且非常强大。但在斯坦福大学读研究生时，我了解到一种叫做归纳推理的新方法，它与前两种方法都不一样。我认为，我们需要在早期阶段做好这方面的教学工作。

什么是归纳推理？就是通过特定的观察进行归纳的能力。我们该如何做到这一点呢？好的，所以我会提倡一种不太数学化的方法，即试图让孩子们理解如何从样本到群体再到我们还未见过的个体进行归纳，以及是什么让这成为可能。

各个领域之间有点紧张。我们是应该更倾向于数学，还是应该更倾向于计算机科学？我认为，如果我们过于偏重数学或过于偏重计算机科学，就有可能失去统计推理的能力。这可能有点抽象，但我觉得统计推理极其强大，极其美妙。

因为我不想泛泛而谈，所以我给你们讲一个问题。我想这是发生在 30 年代的一件事情。我想 Alexander Steven Corbett 当时在研究蝴蝶，他去马来西亚待了一年，他是个非常认真的人。他每天都会观察蝴蝶的种类，他在笔记本上写道“这个种类我见过一次，这个种类我见过两次，这个种类我见过三次”诸如此类。

他回到英国后找到了这一领域的奠基人之一，R.A. Fisher，他问“如果我再去马来西亚六个月，我将会看到多少新的种类”这是一种不同于数学的问题。

我不认为深度学习能帮上忙。这就是统计学家的工作。这是一个非常现代的问题，即你有一个实验室，他们正在研究癌细胞。他们会做同样的事情：“这是我见过一次的癌细胞数量。这是我看过两次的癌细胞数量。”他们会说：“我还没有看到多少癌细胞？如果我继续寻找癌细胞六个月、一年或两年，我还能看到多少新类型的癌细胞？”这就是你在研究统计学时学到的东西。我觉得这很吸引人。

STROGATZ：哦，那真是太好了。能听到统计学的文化，它与数学或计算机科学的文化有何不同，真的很有意思。因为如今，随着人们所称的数据科学的兴起，有一种浑水摸鱼的现象。谁拥有统计数据？为什么我们称之为数据科学？为什么不是统计学？我相信你对此一定有自己的看法。

CANDÈS：当然，因为数据科学中有很多活动是统计部门传统上没有的。因此，我有一位同事 Jure Leskovec，他是一位非常知名的数据科学家。

STROGATZ：康奈尔大学博士博士后。

CANDÈS：没错，他是个聪明人，所以当病毒袭来时，人们开始计算贝塔数，比如，易感、暴露、感染、康复的模型，你有这些微分方程，你知道，如果贝塔数大于 1，我们就有问题了，诸如此类，对吧？

因此，这是一个非常宏观的模型。Jure Leskovec 所做的是创建一个庞大的数字数据集，他追踪了一亿美国人，在美国所有主要城市里。所以他能看到他们白天会去哪里，晚上在哪里回家。这样，就不用在全球范围内建立大家都知道的流行病学模型，这其实是没有意义的，因为加利福尼亚的行为和佛罗里达的行为是完全不同的。那么你就可以在图上的节点上进行拟合，这样你就能拟合出一个适应你所在地区人们流动性的模型。

这就是数据科学，因为 Jure 所做的，你在统计部门是看不到的，他基本上对一亿人进行了几周的跟踪。我想说，我统计部门的一些同事也做过类似的事情，但我叫不出他们的名字。这就是现代数据科学。这不是我通常在统计部门看到的东西。

因此，我在这方面的立场非常明确。数据科学比传统的统计学领域要大得多，但统计学是其知识支柱之一。

STROGATZ：哦，我很高兴能问你这个问题。你已经表达了你对统计思维的痴迷。在你的研究中，有什么能给你带来特别的快乐吗？

CANDÈS：我想是的。我在斯坦福大学的工作很特别，因为我接触到的学生都很优秀。我觉得这让我保持年轻。它让我保持警觉。我不会睡着，因为我必须一直追赶他们。

我觉得在电视上说这些话有点奇怪，但我会因此而变得更健康，因为无论是在精神上还是身体上，它们都让我保持健康。看到他们成长，成为伟大的科学家，我感到很高兴。去年，我的两位前学生在同一年获得了麦克阿瑟奖。所以，我所合作的学生都非常有成就，所以这是一种荣幸。能够感受到如此多的活力，对这个主题如此热情，这是一种荣幸，自私地说，这对我的健康有好处。

STROGATZ：非常感谢，和你谈话真的很有趣。我们一直在和数学家兼统计学家 Emmanuel Candès 交谈。再次感谢您参加“The Joy of Why”节目。

CANDÈS：感谢您抽出时间。我很荣幸。

原文链接：

https://www.quantamagazine.org/how-is-ai-changing-the-science-of-prediction-20241107/

来源：Quanta Magazine

翻译：阮文韵

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593674&idx=2&sn=e7c1dbeb0187a997b7cea7c78ca9ab52

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。