凭借大量数据、强大的模型和统计思维,科学家可以对各种复杂现象做出预测。如今,这种利用机器学习和海量数据集力量的实践正在不断发展。在本集中,联合主持人之一Steven Strogatz(史蒂文·斯特罗加茨,1959 -)与统计学家Emmanuel Candès(伊曼纽尔·坎德斯,1970 -)讨论了黑匣子、不确定性和归纳推理的力量。
图源:Peter Greenwood | Quanta Magazine
作者:Steven Strogatz 量子杂志播客主持人 2024-11-7 译者:zzllrr小乐(数学科普公众号)2024-11-8 |
---|
科学家们通常会建立定量模型——比如天气或流行病——用其做出预测,然后他们可以根据真实情况进行测试。这项工作可以揭示我们对复杂现象的理解程度,并决定下一步研究的方向。近年来,大语言模型(LLM)等“黑匣子”系统取得的显著成功表明,有时在根本不知道某些东西如何工作的情况下也可以做出成功的预测。在本集中,著名统计学家Emmanuel Candès(下文简称EC)和主持人Steven Strogatz(下文简称SS)讨论了如何在大学招生、选举预测和药物发现等各个领域研究中使用统计学、数据科学和人工智能。
SS:做出预测是一项融入我们生活各个方面的挑战,而且往往甚至是以我们没有想到的方式进行。今天下午会下雨吗?股市将如何对最新新闻反应?妈妈过生日会想要什么?
通常,我们至少在科学方面建立知识库和理论理解,并应用我们所知道的知识来预测未来的结果。但这种方法面临着严重的局限性,特别是当要分析的系统非常复杂且人们对其了解甚少时。
我是Steve Strogatz,这是《Quanta Magazine量子杂志》的播客“The Joy of Why”(为何之乐),我和我的搭档主持人Janna Levin轮流主持,探索当今数学和科学中最悬而未决的问题。
在本期节目中,数学家兼统计学家伊曼纽尔·坎德斯(Emmanuel Candès,1970 -)将与我们一起探讨数据科学和机器学习如何帮助我们,用前所未有的方式解决复杂的预测问题?我们应该对他们的预测有多大的信心或怀疑?我们能找到量化这种不确定性的方法吗?
伊曼纽尔是斯坦福大学数学和统计学系主任兼教授 。他的工作涉及数学、统计学、信息论、信号处理和科学计算。他是美国国家科学院院士,并获得过麦克阿瑟奖、科拉茨奖和拉格朗日奖。
伊曼纽尔,欢迎来到“为何之乐”(The Joy of Why)。
伊曼纽尔·坎德斯(Emmanuel Candès,1970 -)
EC:非常感谢你邀请我,既然你提到了美国国家科学院,首先让我祝贺你也当选。真是太棒了。
SS:你太好了。谢谢。嗯,我很荣幸能够加入你和我们所有其他令人尊敬的同事。
好吧,让我们从现在几乎每个人都在思考的事情——机器学习模型开始。我们不断听到很多这方面的消息。我们知道,它们可以深入研究大量数据集,并经常发现人类无法检测到的模式。
但这些模型,人们经常将它们称为“黑匣子”(黑盒)。我只是想知道,你自己会使用这个短语吗?如果是的话,我们所说的黑匣子是什么意思?
EC:正如你所说,机器学习算法将过去收集的数据作为输入。并给定一组特征,尝试对未知标签进行预测。
因此我不得不说,预测建模的文化与统计学科领域本身一样古老。从弗朗西斯·高尔顿(Francis Galton,1822 - 1911)、卡尔·皮尔逊(Karl Pearson,1857 - 1936)和罗纳德·费舍尔(Ronald Fisher,1890 - 1962)开始,统计学家一直非常专注于根据数据进行预测。但他们使用相对简单的模型——即可以进行数学分析的模型、我们在大学教授的模型,这些模型有时可以提供可靠的推论。
但我认为我不需要告诉你,现在我们已经超越了这些简单的回归。我们正在使用深度学习、梯度提升、随机预测——这些技术已经变得非常流行,有时甚至结合起来使用。现在变得如此复杂,非常困难。我们使用“黑匣子”一词来指代过于复杂以至于难以分析的算法。当然,有很多理论学家试图了解黑匣子中发生的事情。
SS:谢谢。精彩的解释。这似乎是一个全新的统计领域。
EC:当然。但这并不意味着我们必须放弃迄今为止所做的一切。我的研究小组一直在做的事情,以及目前世界各地许多小组正在做的事情,就是尝试获取这些黑匣子的输出并将它们视为统计对象。
因此,我们看到了统计的整个分支,它在不做出任何建模假设的情况下推理这些黑匣子的输出。这样分析的结果是可信的,这样我们就可以量化不确定性,从而做出可靠的决策。因此,p值和置信区间等所有内容都以一种或另一种方式存在。
p值的概念,本质上是一种衡量方法,用于量化你对某个实验结果应该感到惊讶的程度。在黑匣子的背景下,如果黑匣子做出了预测,我仍然可以问我应该对这个预测感到多么惊讶。所以我需要能够量化惊讶的因素。因而我希望能够将预测转换为你所说的p值,让我可以实际校准黑匣子的结果。
令人惊讶的是,我们不必放弃我们一直在做的事情。大多数情况下,我们正走向一个参数模型较少,但获得经过良好校准的结果(量化不确定性)的概念仍然存在的世界。
SS:这太有趣了。我真的很喜欢你的说法,这有点像黑匣子可以保持黑色。我们不必查看模型的底层或内部,即可通过分析来理解正在发生的事情。因此,就像我们正在采用旧的方法论、传统统计学的旧愿望来量化不确定性,并为这些黑匣子模型的新世界重建理论。
EC:当然。新世界的重建有很多不同的风格,但我会给你举一个例子。让我们想象一下,在不远的将来,人们申请大学,由于大学收到了如此多的申请,我们会至少将部分决策过程外包给黑匣子。假设现在学生申请康奈尔大学,即你的母校,并且你决定以某种方式使用黑匣子来预测他们在康奈尔大学的表现。那么问题是,这些预测的校准程度如何?
你可以做的是,可以说,“好吧,我已经训练了我的模型,现在我已经保留了一组我知道结果的学生,我实际上可以看到黑匣子如何预测这些结果。”现在我可以试着理解一下,什么样的学生误差较大?什么样的学生误差小呢?我可以从这个黑匣子中获得怎样的准确性呢?
现在,当你要使用黑匣子来筛选一些候选人时,你可以据此进行校准。因为你已经观察到了测试集上的黑匣子预测之间的不匹配,所以你可以了解一点黑匣子的准确性和你实际可以得出的结论。通过观察一组学生的黑匣子的结果(你有结果、标签),你实际上不能产生学生怎么样的点预测,但你可以获得一个预测区间,有可能在规定的时间内包含学生们真实的表现。
当我这么说时,我是说你没有模型。内部任何地方都没有高斯分布(Gaussian distribution)。你仅利用随机抽取学生的事实,查看黑匣子对随机子集的作用,然后使用这些观察结果来实际推广到未见过的学生。
这在很大程度上是一种统计精神,也就是说,你收集申请学生的特征数据,以及黑匣子对这些学生的描述。你正在从中学习,以便能够说出对未来有效的事情。
SS:很好。我真的很想解开这个例子,太诱人了。我认为,特征和标签的语言可能有点抽象。让我看看我是否明白你所说的。
如果我想象一群高中生申请康奈尔大学或你所在的机构斯坦福大学,无论哪种方式,特征可能是他们的高中GPA(平均学分绩点),是否参加过校队运动,是非裔美国人还是拉丁裔,是男是女,诸如此类。你会需要这些特征?
EC:是的,这些都是特征。这些基本上就是你的申请文件中的内容,对吗?这些就是你对申请人的了解,可以进行数字化。但我认为我们现在生活在一个现代世界,所以你的论文可能是一个特征。因为你的论文将变成一串数字。这就是围绕大语言模型的革命。这也是一个数字特征,你可以用它来预测你的英语写得怎么样?你的词汇量有多丰富?你知道,有很多东西你可以使用。
SS:是的,但是就大学可能想要预测的内容而言,为了简单起见,如果我们说我们想要预测学生毕业时的GPA,该怎么办?
EC:举个更简单点儿的例子:学生会在四年内毕业吗?因此,在这种情况下,让我们看一下你的第一个示例:你想要预测两年本科教育后的GPA。我可以说,黑匣子对这些学生(的表现)说了些什么?通过观察误差的分布——即学生的真实GPA与黑匣子预测之间的差异——我可能会对黑匣子对一个随机学生的预测的典型误差有所了解。
因此,当新学生进来时,我会感觉到我将要面临的误差,我可以给你一个可能包含该学生的真实结果的区间,而不是只给你一个点预测。令我们惊讶的是,对于某些申请或某些学生来说,这个区间可能很短。我们对他们的表现相当有信心。对于其他人来说,区间可能很宽。
SS:嗯嗯。在这种情况下,区间,这个例子中的区间是多少?
EC:一个区间可能是我预测的2.9到3.9,所以中心(中点)在3.4左右,另一个区间我预测是3.3到3.5,区间要短得多。它们的中心预测出来是相同的,但范围却相差很大。
如果我是一名招生人员,我想了解有关我的预测引擎的信息,对吗?比如,准确度如何?点预测有什么程度的不确定性?
如果我们从事金融业,我有一个投资策略,我说,“史蒂文,我可以向你保证6%的回报率”,那么 6%±1% 和 6%±10% 之间的情况就非常不同了。如果你属于后者,你可能会失去很多钱和很多客户。
SS:好的,非常棒。你给出的这个例子,无论是在金融还是GPA方面,确实有助于强调为什么我们不仅关心平均值(或者我们可能称之为“点估计”),而且还关心我们可能具有高置信度的区间。我的意思是,我希望任何人都能看到能够预测区间而不仅仅是数字是多么有价值。
因此,如果可以的话,我现在想转向大学环境之外的另一个现实世界的例子,与选举预测有关。这里请听众知晓,我们是在2024年美国大选前几个月录制这个播客的。但我们预测,这一集——请原谅我用双关语——将在选举结束后的某个时间播出。所以我确信这是我们听众非常关心的事情。
我知道你和你的学生也曾在这一领域工作过。问题是,你能为我们提供哪些关于用于预测选举的复杂模型的见解?
EC:也许首先我应该说清楚。我对选举预测没有真正的第一手经验。我正在与《华盛顿邮报》的学生一起在他们的数据科学台上工作,他们实际上在做这项工作。如果可以的话,我将担任这部分对话的使者。
SS:我想对参与其中的年轻人给予一些赞扬。而且我也觉得你可能有点谦虚,因为你有很优秀的品质。但我的意思是,至少就莱尼而言,为《华盛顿邮报》工作的莱尼·布朗纳(Lenny Bronner)和斯坦福大学的本科生不是吗?他们不是建立在你帮助开发的一些技术的基础上的吗?
EC:确实如此。但如你所知,当你实际在战壕中从事一些具有重大意义的事情时,例如预测选举结果,即使我们写的一些论文中包含了一般原则,仍然有大量的工作需要完成。我已经尽力让这一切顺利进行。
SS:很好。谢谢。
EC:新闻机构本质上要做的是,一些投票已结束,一些选区正在计票,一些县刚开始计票。事实上,这是一个非常酷的问题,因为选票已经在盒子里了,可以这么说,你还没有打开盒子,你想知道里面有什么。
许多正在进行的统计工作,例如在《华盛顿邮报》(我最了解的组织),他们正在尝试预测未计票的县。因此,你不必对他们的观众类型进行点估计,“圣克拉拉会以这种方式投票”,你可以统计未计票县的预测,在州一级汇总它们,并非常细致地了解加州的投票情况。
现在,这是如何完成的?显然我们需要预测各县的投票情况。这将基于很多特征。它是一个以城市为主的县吗?是农村县吗?教育水平如何?与县相关的社会经济变量是什么?最重要的是,上次该县的投票结果如何?
因此,你正在使用所有这些特征,你正在尝试学习一个可以准确预测各县投票情况的模型。如果你愿意的话,这就是你的黑匣子,除了他们使用的模型没有我所看到的复杂,相当简单。
但第二部分是校准。因为你不能只是在广播中说,“哦,你知道,加州会这样投票。”事实上,这只是一个点估计。如果你弄错了,这会产生巨大的后果。因此,他们要做的是统计加州的一系列可能的投票结果,这些结果会随着选举的进行而动态更新。这真实地反映了他们对投票结果完全统计后会发生什么的了解程度。
他们所做的事情非常酷,因为他们确实在预测误差。他们正在预测不确定性。当然,你可以看到,随着越来越多的县被统计,他们的不确定性范围正在缩小。
而且他们相当忠实。正如我们在现场所说,他们正在进行回溯测试,他们说:“好吧,让我们看看这个模型在2020年会如何运作。”他们希望确保他们投射的时间间隔包含真实的标签、真实的投票、规定的时间比例。
所以这一切都设计得很好。我认为,《华盛顿邮报》非常尊重他们的读者,不仅为你提供了点估计,而且还让你真正感受到了他们的点估计的准确性,这值得称赞。
SS:现在,为了明确这一点,我们不是在谈论根据提前一年的民意调查或类似的东西来预测选举。这是根据即将公布的结果对选举之夜进行的预测。
EC:没错。所以读者必须想象基本上在某个地方的盒子里有选票。唯一的一件事是,盒子还没有被打开。但我在其他县、其他辖区的其他地方也看到过类似的盒子被打开。我将利用这些知识来预测这个盒子里的东西。这将是一个非常精确的预测,遵循我们之前提出的原则。而且你确实有权使用民意调查作为特征,作为模型中的预测变量。
SS:我想你可以。我认为很多人可能对民意调查持怀疑态度。我们已经看到进行民意调查有多么困难。但话又说回来,模型可能会考虑到这一点。也许它没有分配太多的权重。
EC:没错。该模型将考虑到这一点。现在,民意调查有一点棘手,那就是不同县的民意调查可能会有所不同,对吗?
通常,当你拟合统计模型时,你希望数据集中所有单元的特征都相同。那么回到我们之前关于大学招生的例子,对吧?每个人都有高中GPA。对于“你在校队吗?”每个人都有是/否的答案。
因此,将你的民意调查用作一项特征可能会比较棘手,因为某些县可能有它,而其他县可能没有。所以你必须要小心一点。
SS:好的。我们一直在与Emmanuel Candès讨论统计数据、预测模型及其固有的不确定性。
那么让我们来看另一个现实世界的例子。我在这里思考的是预测模型的医学应用。药物发现——当然,这非常重要,关系到生死攸关的后果。例如,有人采取了利用AI人工智能生成人工数据来增加样本量的举措。这听起来有点难以想象这会起作用,但显然这可能是一个有用的策略。
EC:你问的问题非常有趣,我认为你再次触及了统计科学作为一门学科的未来。
统计学一直是一门经验科学,试图理解周围的世界。例如,现在我们正在处理生成式人工智能(Gen AI),或者非常奇特的机器学习算法。
为了了解药物,我们从体内开始:就像,我们只是给人们注射东西。然后我们在体外做了这个。现在我们正在进入计算机模拟,正如你所指出的,对吧?我们想使用算法来预测药物的作用。
假设你是一家大型制药公司,并且拥有庞大种类的化合物库,可以达到四亿、五亿种。你想知道哪些化合物实际上会与目标结合。那么,你怎么做呢?
你应该将你的化合物一一取出并试验它们是否会与你的目标结合。但正如你可以想象的那样,这需要大量的时间和金钱。所以现在人们正在使用机器学习来猜测他们是否会结合。在过去的几年里,我们已经看到了像AlphaFold这样的东西。例如,我们已经看到很多模型试图仅根据氨基酸序列来预测化合物的形状。
现在,这不会取代物理实验,但机器学习在这种情况下所做的,它将优先考虑你应该首先尝试的化合物。我们在这个领域所做的事情之一就是说,“好吧,我们将训练一些非常奇特的模型——它们实际上是黑匣子。我的意思是,它们太复杂了,我不知道它们到底做了什么,但它们会产生亲和力(亲密度)分数,即化合物对目标疾病的亲和力。”我说:“我可以相信这个吗?”
在没有任何统计模型的情况下,只需查看算法对未经训练的分子的预测,我们就可以选择[一个]数据自适应阈值(即如果你愿意,一旦预测的亲和力高于此阈值,你将选择所有这些分子),则可以保证我提供给你的内容中有80%实际上是你感兴趣的。
在下游,你将对一些真实的事物进行一些真实的实验。但在这里,非常令人兴奋的是人工智能确实可以加快应该传递给实验室的药物的优先顺序。
SS:不,它为有根据的猜测的概念赋予了全新的含义。正如你所说,这些现在都是经过精心教育的猜测,必须进行测试。
EC:它们仍然需要接受测试。现在还有另一件事,这一次可能更可怕,那就是,如果我们使用生成式AI来构建人们所谓的“数字孪生”,即非物理的东西,但可以通过生成式人工智能生成,会怎么样。因此,这里出现了一个新的研究方向。
举例来说,假设我想研究某些药物的统计特性,对吧?问题是我的样本太少了。假设我想估计哪部分药物具有某种特性。问题是我有很多氨基酸序列,但我还没有测量它们的特性。正如你可以想象的那样,趋势是使用预测模型(黑匣子),用预测代替真实测量,然后假装它是真实数据。然后对这些预测进行平均,得出具有其特性的药物的总体比例。这是错误的,因为这种方法引入了偏见(偏差)。
我们想要使用这个预测模型,我们想要使用生成式AI来填充缺失的数据,以创建新的数据集。但与此同时,我们需要了解如何消除偏见,得出科学有效的结论。
让我举个例子。假设我只想估计随机变量的平均值。我们不妨称之为y 。我有一些特征,我们称它们为x 。我可以尝试学习的是,可以拟合一个模型来根据x预测y。现在,当我没有真实标签时,我可以用预测来替换真实标签和真实数值。
我可以对它们进行平均,但它们会有偏差。但你猜怎么着?我可以消除偏差,因为我从你给我的标签数据中估计了偏差。
SS:很好。
EC:因此,如果我做得正确,我可以有效地极大地增加样本量。如果我的预测具有合理的准确性,那么就好像我的样本量要大得多。所以我能告诉你的信息的准确性要高得多。
SS:嗯,我忍不住要问你,因为这对我们来说是一种难得的享受。你因对人们所说的“压缩感知”(compressed sensing)领域的贡献而闻名。我不知道它是否完全适合我们今天的讨论,但我想请你告诉我们压缩感知及其在医学成像、MRI(磁共振成像)或其他方面的应用如何适合我们正在谈论的框架?即使没有,你能告诉我们一些相关信息吗?
EC:它不直接适合。我认为压缩感知的事实是稀疏性(sparsity)是一个重要的现象。我们现在看到的是人们测量阳光下的一切,因为我们不知道最终什么是重要的,对吗?因此,我们需要像你我这样的人来筛选重要的事情。压缩感知所说的是,如果我们测量很多东西,但如果只有少数东西重要,并且如果我们使用压缩感知理论建议的正确算法,那么我们应该能够建立一个非常准确的预测模型。
就像,我们会明白很多变量与预测结果无关,它会很快关注那些对结果有影响的变量,然后相应建立一个好的预测模型。
SS:所以你一直在使用“稀疏”这个词。在这种情况下,这是否意味着所有那些无关紧要的变量,我们可以有效地将它们的贡献设置为零?
EC:没错。所以说,在这种情况下,对于我们的观众来说,可能会说,即使我测量了一百万个遗传变异,表型的分布并不取决于这一百万个东西。它可能取决于20、30个。这就是稀疏性。
因此,压缩感知提出的问题是,当某些事物依赖于长列表中的少数但未知的事物时,你如何着手并找到它们?
SS:嗯嗯。因此,该技术或方法将识别哪些是关键的20(或任何小数目)个。
EC:没错。让我们把这看作一个矩阵问题,可以吗?我有个矩阵,它有一百万列,这些都是遗传变异。然后我得到一个反应y ,这些是该矩阵的行。如果我想求解一个系统y = ax ,比如哪些遗传变异对预测y很重要?经典理论会说,我有多少未知数就需要多少个人。但压缩感知理论说,不,这不对。因为如果你提前知道这些基因变异中只有少数很重要,那么你就可以与更少的人打交道。这就是为什么我们可以开发不需要一百万患者的表型预测模型。
SS:太棒了。如今,科学界似乎无处不在的重大问题之一是可重复性(复现性、重现性)危机。我只是想知道你是否对此有统计意见。
EC:是的,你问这个问题很有趣。我想,首先我会对再现性危机进行观察。它发生在人们拥有大量数据集可供使用的时刻,通常是在制定科学假设之前,使用依赖于数十亿个参数的极其奇特的模型。所以我首先要说的是,这场危机在这个时候发生并不是巧合,因为我给你一个数据集,你相信它是黄金。你要尝试一个模型,但它不成功,你就会尝试其他的东西。所以你要微调参数,微调很多东西,直到发出咔哒声,发现没有任何问题。
但我认为,作为一名统计学家,我们需要做的是(我们当中有很多人正在研究这样的事情),如何围绕选择模型、参数的自由而建立保障措施,以便有朝一日,你声称的发现有可能被一个独立的实验重现?
统计界正在开发很多方法,确保当你认为你有某些发现时,你就确实有这些发现。因此,对于该领域来说,这是一个非常激动人心的时刻,开发方法现在并不是真正量化预测中的不确定性,而是实际上以这种方式进行校准。然后,当你报告你的发现时,我们会确保你报告的大部分内容都是正确的。
SS:嗯,我现在想回到更广泛的、甚至是社会的层面来思考一下教育问题。每个有学识或受过教育的公民都应该了解一些概率和统计的概念,包括我们一直在谈论的它们的现代化身。我想知道你是否对此有想法。作为教育者或传播者,我们可以做些什么来提高统计知识?
EC:这是个好问题。我认为我在较低水平的统计教学中看到的是对公式的依赖——你知道,我应该什么时候应用哪个公式?我认为这没有帮助。
作为一名学生,我当然学习了数学推理,这很重要。然后,通过高中和大学,我学会了物理推理。这与数学推理不同,而且非常强大。但在斯坦福大学研究生院,我学到了一种叫做归纳推理(inductive reasoning)的新东西,它不是前两者。我认为我们需要在早期阶段做好这方面的教学。
什么是归纳推理?这是根据特定观察进行概括的能力。我们该如何做到这一点?我会提倡一种本质上不太数学化的方法,它试图让孩子们理解如何从总体中的一个样本推广到我们尚未见过的个体,以及是什么使这成为可能。
学科领域之间有一点紧张。我们应该更多地关注数学还是关注计算机科学,而人工智能主要发生在哪里?我认为,如果我们过多地关注数学或过多地关注计算机科学,就会有失去统计推理能力的危险。这可能有点抽象,但我发现统计推理非常强大,非常美丽。
因为我不想泛泛而谈,所以我给你提一个问题。我想这是发生在30年代的一件著名的事情。我认为亚历山大·史蒂文·科贝特(Alexander Steven Corbett,1934 - 1992)当时在研究蝴蝶,他去了马来西亚一年,他是一个非常认真的人。每天他都会观察蝴蝶的种类,并在笔记本上写下,“这个物种我见过一次,这个物种我见过两次,这个物种我见过三次,”等等。
于是他回到英国,找到了该领域的创始人之一R.A. Fisher(罗纳德·艾尔默·费舍尔,1890 - 1962),他问道:“如果我回到马来西亚六个月,我会看到多少新物种?”这是一个不同于数学的问题。答案不在问题中。
而且我认为深度学习不会有太大帮助。这就是统计学家所做的。这是一个非常现代的问题,那就是,你有一个实验室,他们正在研究癌细胞。他们将做完全相同的事情:“这是我曾经见过一次的癌细胞数量。这是我见过两次的癌细胞数量。”他们说:“有多少癌细胞我还没看到过?如果我继续寻找癌细胞六个月、一年或两年,预计我会看到多少新类型?”这就是你学习统计学时学到的东西。我觉得这很有趣。
SS:哦,好吧,那太好了。了解统计文化以及它与数学或计算机科学的不同之处真的很有趣。因为如今,随着人们所说的数据科学的兴起,水变得浑浊起来。谁拥有统计数据?为什么我们称其为数据科学?为什么不是统计呢?我相信你对此有自己的看法。
EC:当然,因为数据科学中有很多活动传统上是在统计系中找不到的。我有一位同事Jure Leskovec(尤雷·莱斯科维奇,1980 -),他是一位非常知名的数据科学家。
SS:康奈尔大学博士 [编者注:莱斯科维奇是康奈尔大学的博士后,拥有博士学位。来自卡内基梅隆大学。]
EC:完全正确。他是一个才华横溢的人。当新冠疫情袭来时,人们正在计算这个贝塔值。就像,你易受影响、暴露、感染、康复的模型,你有这些微分方程,如果贝塔数大于1,我们就会遇到问题,诸如此类,对吧?
所以这是一个非常宏观的模型。Jure Leskovec所做的是创建了一个巨大的数据集。他追踪了美国所有主要城市的一亿人。他会看到他们白天去哪里,晚上回家在哪里。拟合全球范围内每个人都知道的流行病学模型,这实际上没有意义,因为加州的行为和佛罗里达州的行为非常不同。然后,你可以将其拟合到图表上的某种节点上,这样就可以拟合一个适合你所在位置人员流动性的模型。
这就是数据科学,因为Jure所做的,你在统计部门看不到,他基本上在几周内跟踪了1亿人。我想说我统计部门的一些同事也在做这样的事情,但我不能说出其中任何一个名字。这就是现代数据科学。这不是我在统计系通常看到的情况。
所以我在这一点上的立场是非常明确的。数据科学比传统的统计学领域要大得多,但统计学是其知识支柱之一。
SS:哦,我很高兴问你这个问题。我用这个发现了一个金矿,但你已经表达了你对统计思维的迷恋。你的研究中有什么事情给你带来特别的快乐吗?
EC:是的,我想是的。我在斯坦福大学的工作是独一无二的,因为与我一起工作的学生都非常出色。我觉得它让我保持年轻,让我保持警觉。我无法入睡,因为我必须一直追赶他们。
我觉得在广播中说这句话很奇怪,但我会因此而变得更好,因为就像精神上、身体上一样,它们让我保持健康。很高兴看到他们成长,成为伟大的科学家。去年,我有两名以前的学生在同一年获得了麦克阿瑟奖学金。与我一起工作的学生都取得了巨大的成就,这是一种荣幸。能够感受到如此多的能量和对这个学科的热情是一种荣幸,并且自私地讲,我会说这对我的健康有好处。
SS:嗯,非常感谢。和你聊天真的很有趣。我们一直在与数学家和统计学家 Emmanuel Candès 进行交谈。再次感谢你加入我们的“The Joy of Why”(为何之乐)节目。
EC:谢谢你的宝贵时间。很高兴。