2024诺奖得主Geoffrey Hinton的访谈:关于直觉在人才选取以及研究中科学问题选取

文摘   2024-10-19 05:25   荷兰  


1.本文字数12934字,预计阅读时间43min。读者也可以直接看原视频

https://www.youtube.com/watch?v=n4IQOBka8bc

2.愿每一位科研人能认清社会时钟和真正发自内心热爱之间的区别,走上一条独属自己特色之路,从而避免科研内卷的命运


今天我们来一起看看2024年诺贝尔物理学奖获得者之一的Geoffrey Hinton,在youtube上的一段访谈,或许对你我做科研有一些启发和思考。

而Hopfield的相关的内容可以点击查看2024年诺奖获得者Hopfield写到:科学问题的选择决定他/她在科学上的成就,国自然亦如此

1.选择人才的直觉与思考 🧠

在这段视频的最开头他们谈到了人才选拔的方法。Hinton提到,选择人才的过程对他来说大多是直觉驱动的。他回忆起与Ilya(OpenAI 的创始人,苏茨克维生于苏联(俄罗斯),在以色列长大,后来到多伦多大学学习,成为Machine learning Group的学生,师从AI先驱Geoffrey Hinton。2018年Geoffrey Hinton因为深度学习研究成果获得图灵奖)的第一次见面,直觉告诉他这是一个聪明的人,值得合作。Hinton强调,直觉在选择人才时起着重要作用,但他也承认,思考和反思同样不可或缺。(理性脑的思考大多数时候,已经很少让我们使用直觉了,直觉其实很多时候是与我们链接得更深刻)

“有时你就是知道。与Ilya聊了没多久,他就显得很聪明,直觉很好,数学也很好。”

2.追忆早期的研究经历和合作-下面是整个对话环节

所以我记得当我第一次从英国来到卡内基梅隆大学,在英国的一个研究单位时, 六点钟,大家都会去酒吧喝一杯。 嗯,在卡内基梅隆大学, 我记得我在那里几周后,那是星期六晚上。 

我还没有任何朋友,我不知道该怎么办。所以我决定进入实验室进行 一些编程,因为我有一台列表机,而你无法在家对其进行编程。

所以我 在周六晚上九点左右走进实验室,里面挤满了人。所有学生都在那里,他们都在那里,因为他们正在研究的是未来。他们都相信他们接下来所做的将改变计算机科学的进程 ,这与英国截然不同。这非常令人耳目一新。

让我回到最初,剑桥的杰夫 。呃,试图了解大脑。呃,那是什么样子的?非常令人失望。

所以我学了生理学,在夏季学期,他们会教我们大脑如何工作,他们教我们的只是神经元如何传导动作电位, 这非常有趣,但它并没有告诉你大脑如何工作。

所以这非常 令人失望。 

然后我转向哲学,我想也许他们会告诉我们思维是如何运作的,但这非常令人失望。

我最终去了爱丁堡做人工智能 ,这更有趣。至少你可以模拟事物,这样你就可以测试理论。 

提问:您还记得人工智能的哪些方面让您着迷吗?那是一张纸吗?是某个特定的人让您接触到这些想法吗?

我想我读过的唐纳德·赫布(Donald Hebb)的书对我影响很大。嗯, 他对如何学习神经网络中的连接强度非常感兴趣。我很早就读过约翰·冯·诺依曼的书,嗯, 他对大脑如何计算以及它与普通计算机有何不同非常感兴趣。

提问:您是否确信这个想法在那时会奏效,或者您在爱丁堡时代的直觉是什么? 

在我看来,大脑必须有一种学习方式,而且显然不是通过将各种各样的东西编入其中,然后使用逻辑推理规则来学习,这从一开始就让我觉得很疯狂。 嗯,所以我们必须弄清楚大脑如何学会修改神经网络中的连接,以便它可以做复杂的 事情。冯·诺依曼也相信这一点。图灵相信这一点。所以冯·诺依曼和图灵都非常擅长逻辑,但他们不相信这种逻辑方法

提问:您在研究神经科学的想法和仅仅为人工智能做一些看起来不错的算法之间有何分歧?您早期获得了多少灵感?

所以我从来没有在神经科学方面做过那么多研究。我总是受到关于大脑如何运作的了解的启发 。有一堆神经元,它们执行相对简单的操作, 它们是非线性的,嗯,但它们收集输入,对它们进行加权,然后给出取决于加权输入的输出。问题是如何改变这些权重以使整个事情发挥作用?这似乎是一个相当简单的问题。


提问您还记得当时的哪些合作吗?

我在卡内基梅隆大学的主要合作对象不是卡内基梅隆大学。我与约翰·霍普金斯大学巴尔的摩分校的特里·塞诺斯基 (Terry Sejnowski) 进行了很多互动。大约 每月一次,要么他开车去匹兹堡,要么我开车去巴尔的摩。距离 250 英里,我们会一起度过一个周末,研究玻尔兹曼机。这是一次美妙的 合作。我们都相信这就是大脑的运作方式。这是我做过的最令人兴奋的 研究。(快科研的当下,更需要慢下来,去做一些发自内心热爱的科研)

许多技术成果非常有趣,但我认为这不是大脑的工作方式。嗯,我还与嗯 Peter Brown 进行了很好的合作, 他是一位非常优秀的统计学家,他在 IBM 从事语音识别工作, 然后他以更成熟的学生身份来到卡内基梅隆大学以获得博士学位。嗯,但他已经知道很多了。他教了我很多关于言语的知识,事实上他还教了 隐马尔可夫模型。我认为我从他身上学到的东西比他从我身上学到的东西还要多(学生与老师之间的共学工成长,太美好了。 

提问:这就是您想要的学生。 

当他教我隐马尔可夫模型时,我正在用隐藏层做背景,当时它们还不被称为隐藏层。我认为他们在隐马尔可夫模型中使用的名称对于你不知道他们在做什么的变量来说是一个很好的名称。嗯, 这就是神经网络中“隐藏”这个名字的由来,Peter 认为这个名字对于神经网络中的隐藏层来说是一个很棒的名字。嗯,但我从彼得那里学到了很多关于演讲的知识

提问:让我们回到,嗯,Ilya出现在你的办公室。可能是周日我在办公室。

嗯,我想我正在编程,然后有人敲门,不是普通的敲门声,而是一种[敲桌子] 紧急的敲门声。于是我去开门,这是一位年轻的学生, 他说他整个夏天都在煮薯条,但他宁愿在我的实验室工作。所以我说,那你为什么不预约一下,我们谈谈。所以他只是说:“现在怎么样 ?” 这就是Ilya的性格。所以我们聊了一会儿,我给了他一篇论文让他读, 这是一篇关于反向传播的自然论文。一周后我们又举行了一次会议,他回来后说:“我不明白”,我非常失望。我认为他看起来是个聪明人,但这只是链式法则。这并不难理解。他说, “哦,不,不,我明白了!我只是不明白为什么你不把梯度提供给一个明智的函数优化器”,这花了我们好几年的时间来思考。嗯,就 这样一直下去,他非常好,他对事物的原始直觉总是非常好。 

提问:你认为是什么让Ilya产生了这些,呃,那些直觉?

我不知道。我认为他总是为自己着想,他从小就对人工智能很感兴趣 。 嗯,他显然擅长数学,所以,但这很难知道。 

提问:你们两个之间的合作怎么样?你会扮演什么角色,Ilya会扮演什么角色? 

这很有趣。嗯,我记得有一次,当我们试图做一件复杂的事情 来生成数据图时,我有一种混合模型。因此,您可以采用相同的相似点并制作两张地图,以便在一张地图中,银行可能接近贪婪,而在另一张地图中, 银行可能接近河流。嗯,因为在一张地图上你不可能让它靠近两张地图, 对吧?因为河流和贪婪沿途分开。因此,我们有一个混合映射,我们在 MATLAB 中完成它,这涉及到大量的代码重组以进行正确的矩阵乘法。IIya对此感到厌倦。所以有一天他来了,说,嗯,“我要为 MATLAB 编写一个接口 。所以我用这种不同的语言进行编程,然后我有一些东西可以将它转换为 MATLAB”。

我说:“不, IIya,这需要你一个月的时间。我们必须继续这个项目。不要因此而分心。IIya说,”没关系,我今天早上就做到了。呃,这真是太不可思议了。这些年来,最大的转变不一定只是算法, 还有规模。呃,这些年来,你是如何看待这个规模的?所以 IIya总是宣扬,嗯,“你只要把它做得更大,它就会工作得更好”,我一直认为这有点逃避,你必须有新的想法。事实证明, IIya基本上是对的, 像变压器这样的东西有很大帮助,但实际上是数据规模和计算规模,当时我们不知道计算机会达到十亿。快了好几倍。我们认为, 如果我们拥有更大的数据和计算规模,我们可能会想出一些巧妙的想法来解决问题。

大约在 2011 年,Ilya 和另一位名叫 James Martins 的研究生和我发表了 一篇使用字符级别预测的论文。因此,我们利用维基百科,尝试预测下一个 HTML 字符,效果非常好,我们总是对它的效果感到惊讶。那是在 GPU 上使用一个奇特的优化器,我们永远无法相信它能理解任何东西,但它看起来好像能理解,这看起来令人难以置信。


提问:您能否向我们介绍一下这些模型是如何训练来预测下一个单词的,以及为什么这是错误的思考方式?

好的。我实际上并不认为这是错误的方式。所以事实上,我认为我制作了 第一个使用嵌入和反向传播的神经网络语言模型。因此,这是非常简单的数据,只有三倍,它将每个符号转换为嵌入,然后让 嵌入交互以预测下一个符号的嵌入,然后据此预测 下一个符号。然后通过整个过程进行反向传播来学习这些三元组。我证明它可以概括。嗯,大约 10 年后,Yoshua Bengio 使用了一个非常相似的网络,并证明它可以处理真实的文本。大约 10 年后, 语言学家开始相信嵌入。这是一个缓慢的过程。我认为这不仅仅是预测下一个符号的原因是如果你问,“那么预测下一个符号需要什么?” 特别是如果你问我一个问题,然后答案的第一个单词就是下一个符号。嗯,你必须理解这个问题。所以我认为通过预测下一个符号,它与老式的自动完成非常不同,你会存储一些 三元组的单词,然后如果你看到一对单词,你会看到不同的单词 出现在第三位的频率。这样您就可以预测下一个符号。这就是大多数人认为的自动完成功能。它不再是那种预测下一个符号的工具。

您必须理解所说的内容。所以我认为你通过让它预测下一个符号来强迫它理解 。我认为它的理解方式与我们大致相同。所以很多人会告诉你这些东西不像我们。 

嗯,他们只是在预测 下一个符号。他们不像我们一样进行推理,但实际上为了预测下一个符号, 它必须进行一些推理。我们现在已经看到,如果你制作大的东西而不放入任何特殊的东西来进行推理,它们已经可以进行一些推理了。我认为当你让它们变得更大时,它们将能够进行越来越多的推理。 

提问:是什么让这些模型能够学习如此广泛的领域。

这些大型语言模型正在做的是寻找通用结构, 通过找到通用结构,他们可以使用通用结构对事物进行编码,这样效率更高。让我举个例子。如果你问 GPT-4,“为什么堆肥堆像原子弹?” 大多数人都无法回答这个问题。大多数人并不认为原子弹和堆肥堆是非常不同的东西。但是GPT-4 会告诉你,能量尺度非常不同,时间尺度也非常不同。但相同的是, 当堆肥堆变得更热时,它产生的热量会更快。当原子弹产生更多 中子时,它会更快地产生更多中子。因此它得到了连锁反应的想法。我相信大家都知道它们都是连锁反应的形式。它利用这种理解将所有信息压缩到其权重中。如果它这样做了,那么它就会对数百件我们还没有看到类比的事情这样做,但它已经做到了,这就是你从明显不同的事物之间看到这些类比而获得创造力的地方 。所以我认为 GPT-4最终会变得非常有创意(当它变得更大时)。我认为这种认为它只是反省所学内容,只是将文本拼凑在一起的想法,它已经学到了,这是完全错误的。它会比我想象的更有创造力。你可能会说,它不仅会重复我们迄今为止所发展的人类知识,而且还可能 超越这一点。我认为这是我们还没有看到的。我们已经开始看到一些例子,但在很大程度上,我们仍处于当前的 科学水平。

提问:您认为什么能够让它超越这个目标?

嗯,我们已经在更有限的背景下看到了这一点。就像你让 AlphaGo与李世石那场著名的比赛一样,嗯,第37 步,AlphaGo 下了一个棋 ,所有专家都说一定是一个错误,但实际上后来他们意识到这是一个聪明的棋。嗯,所以它是在那个有限的域内创建的。嗯,我想随着这些事情变得越来越大,我们会看到更多这样的事情。与呃 AlphaGo 的不同之处在于,它使用强化学习, 随后使其能够超越当前状态。因此,它从模仿学习开始,观察人类如何玩游戏,然后通过自我游戏发展将超越这一点。 

提问:您认为这是当前数据中缺失的部分吗?

我认为这可能是一个缺失的组成部分,是的。AlphaGo 和 AlphaZero 中的自我对弈是它能够做出这些创造性举动的重要原因。但我认为这完全没有必要。我很久以前做过一个小实验, 你正在训练神经网络来识别手写数字。我喜欢这个例子,MNIST 的例子。你给它训练数据,其中一半的答案是错误的。嗯, 问题是它的学习效果如何?你有一半的答案都错了一次,然后就 一直这样。因此,它不能仅通过查看相同的示例来平均消除错误。但是有时答案是正确的,有时答案是错误的,有时当它看到 这个例子一半的例子时,当它看到这个例子时,答案总是错误的。因此训练数据有 50% 的误差,但如果你训练反向传播,误差会降至 5% 或更少。换句话说,从标签错误的数据中, 它可以获得更好的结果 它可以看到训练数据是错误的,这就是聪明的学生比他们的导师更聪明的原因。他们的顾问告诉他们所有这些事情,而他们的顾问告诉他们的一半内容,他们认为不是垃圾,他们听了 另一半的内容,然后他们最终比顾问更聪明。 因此,这些大型神经网络实际上可以做到, 它们可以比训练数据做得更好,但大多数人没有意识到这一点。

提问:那么,您如何期望这些模型能够在其中添加推理呢?

所以我的意思是,一种方法是在它们之上添加某种启发式方法, 现在有很多研究正在进行,你有某种思路,你只需将其推理反馈到其本身。另一种方法 是模型本身,呃,当你放大它时。 所以我的直觉是,随着我们扩大这些模型的规模,它们在推理方面会变得更好,如果你问人们大致如何工作,我们有这些直觉,我们可以进行推理,并且我们使用推理来纠正我们的直觉。当然,我们在推理的过程中是利用直觉来进行推理的,但是推理的结论却与我们的直觉相冲突。我们意识到直觉需要改变。这很像 AlphaGo 或 AlphaZero 中的评估函数,嗯,它只是看着棋盘并说,这对我来说有多好?但是,当您进行蒙特卡罗推出后,现在您会得到更准确的想法,并且可以修改您的评估函数。因此,您可以通过让它与推理结果一致来训练它。我认为这些大型语言模型必须开始这样做。他们必须开始通过推理并认识到这是不对的来训练 他们对接下来会发生什么的原始直觉。这样他们就可以获得更多的训练数据,而不仅仅是模仿人们的行为。这正是 AlphaGo 能够做出这个创造性动作 37 的原因,它拥有更多的训练数据 ,因为它正在使用推理来检查正确的下一步应该是什么

提问:您对多模态有何看法?

因此,我们讨论了这些类比,而这些类比通常远远超出了我们的想象。它正在发现远远超出人类范围的类比,并且可能达到我们永远无法理解的抽象水平。

提问:现在,当我们引入图像、视频和声音时,您认为这将如何 改变模型,呃,您认为它将如何改变它能够进行的类比? 

嗯,我想这会改变很多。我认为这会让我们更好地理解空间事物。例如,仅从语言来看,很难理解一些空间事物, 尽管 GPT-4甚至在多模态之前就可以做到这一点。嗯, 但是当你让它成为多模式时,如果你让它既能视觉又能伸手抓住东西,如果你能拿起它们 并将它们翻转等等,它会更好地理解物体。因此,虽然你可以从语言中学到很多东西,但如果你是多模式的,学习起来会更容易,事实上你需要的语言更少,而且有大量的 YouTube 视频可以预测下一帧,等等。所以我认为这些多式联运模式显然会占据主导地位。嗯,您可以通过这种方式获取更多数据 。他们需要更少的语言。因此,确实有一个哲学观点,即您可以仅从语言中学习非常好的模型,但从多模态系统中学习它要容易得多。

提问:您认为这会如何影响模型的推理? 

我认为这会让它更好地推理空间。例如,推理如果你捡起物体会发生什么,如果你真的尝试捡起物体, 你将获得各种有帮助的训练数据。

提问:您认为人类大脑的进化是为了与语言配合良好,还是语言的进化是为了与人类大脑配合良好?

我认为,语言是为了与大脑一起工作而进化的,还是大脑是 为了与语言一起工作而进化的,我认为这是一个非常好的问题。我认为两者都发生了,我曾经认为我们根本不需要语言就能进行很多认知。嗯, 现在我改变了主意。那么,让我给你们提供关于语言的三种不同观点 ,以及它与认知的关系。有一种老式的符号观点,即认知包括采用某种干净的逻辑语言的符号串,其中 没有歧义,并应用推理规则。这就是认知。

这只是 对事物的这些符号操作,就像语言符号串一样。嗯,这是一种极端的观点。相反的极端观点是不,不,一旦你进入头部,一切都是向量。所以符号 进来了,你将这些符号转换成大向量,里面的所有东西都是用大向量完成的。然后,如果你想产生输出,你就再次产生符号。因此,机器翻译在 2014 年左右出现了一个转折点,当时人们使用神经循环神经网络,单词 会不断出现,它们会处于隐藏状态,并 在这种隐藏状态下不断积累信息。因此,当他们到达一个句子的末尾时,该句子有一个大的隐藏向量来捕获该句子的含义,然后可以使用该隐藏向量以 另一种语言生成该句子,这被称为思维向量。这就是第二种语言观。你将语言转换成一个与语言完全不同的大向量,这就是认知的全部内容。

但还有第三种观点,我现在相信的是,你采用 这些符号,将这些符号转换为嵌入,然后事实上,我认为大约在 2006 年,我有一位前研究生,名叫 Rick Zelisky, 他是一位非常优秀的计算机视觉专家。我在一次会议上与他交谈,他说, 你知道,你应该考虑使用图形处理卡,因为它们非常擅长矩阵乘法,而你所做的基本上都是矩阵乘法。所以 我想了一会儿。然后我们了解了这些 Tesla 系统,其中有, 嗯,四个 GPU,最初我们只是得到了,嗯,游戏 GPU,发现它们使事情运行速度快了 30 倍。然后我们购买了一个带有四个 GPU 的 Tesla 系统,我们 对此进行了演讲,效果非常好。

然后在 2009 年,我在 NIPS 上做了一次演讲,我告诉 一千名机器学习研究人员,“你们都应该去购买 Nvidia GPU。它们是未来。你们需要它们来进行机器学习”。事实上,嗯,然后我给 Nvidia 发了一封邮件,说:“我告诉一千名机器学习研究人员购买你们的主板, 你们能给我一块免费的吗?” 他们说:“不”。事实上,他们并没有拒绝,只是没有回复。嗯,但是当我后来告诉詹森这个故事时,他免费给了我一个。那是,呃,这非常非常好。我认为有趣的是,嗯, GPU 是如何与这个领域一起发展的。

提问:那么,您认为我们下一步应该去哪里,呃,去哪里计算?

因此,我在 Google 的最后几年,我一直在思考尝试进行模拟计算的方法(或许正在阅读的你会有所启发), 这样我们就可以像大脑一样使用 30 瓦的功率,而不是使用 1 兆瓦的功率,并且可以在模拟硬件中运行这些大型语言模型。我从未让它发挥 作用,但我开始真正欣赏数字计算。因此,如果您要使用 低功耗模拟计算,则每块硬件都会有所不同。这个想法是学习将利用该硬件的特定属性。这就是 人们发生的情况。我们所有人的大脑都是不同的。嗯,所以我们不能把 你大脑中的权重放到我的大脑中。硬件不同,各个神经元的精确属性也不同。过去的学习已经学会了利用这一切。因此,我们是凡人,因为我大脑中的重量对任何其他大脑都没有好处 。当我死后,这些重量就没用了。嗯,我们可以通过我生成句子而你弄清楚如何改变你的权重来从一个人到另一个人获取信息,效率相当低。所以你 也会说同样的话。这就是所谓的蒸馏。但这是一种非常低效的 知识交流方式。对于数字系统来说,它们是不朽的,因为一旦你有了一些权重,你就可以扔掉计算机,只需将权重存储在磁带上的某个地方,然后 现在构建另一台计算机,放入相同的权重,如果它是数字的,它可以 计算 结果与其他系统完全相同。因此,数字系统可以共享权重,如果你有一大堆数字系统,并且每个系统都 进行一点点学习,并且它们从相同的权重开始,它们会进行一点点学习,那么效率会高得多, 然后他们再次分享自己的体重。嗯,他们都知道其他人学到的东西,我们不能这样做。因此,他们在分享知识方面远远优于我们。 

提问:该领域应用的许多想法都是非常 古老的想法。这些想法在神经科学领域一直存在。您认为我们开发的系统还需要什么? 

因此,我们仍然需要赶上神经科学的一件大事是变化的时间表 。因此,几乎所有神经网络中的活动变化都有一个快速的时间表。因此,输入来自活动,嵌入向量都会发生变化,然后有一个缓慢的时间尺度, 它会改变权重,这就是长期学习。你只有这两个时间表。在大脑中,体重变化有很多时间尺度。举个例子,如果我说了一个意想不到的词,比如“黄瓜”,五分钟后你戴上耳机, 周围有很多噪音,而且有非常微弱的词,你会更好地识别 “黄瓜”这个词,因为我 五分钟前就说过了。那么大脑中的知识在哪里呢?这些知识显然存在于突触的暂时变化中。并不是神经元 在“黄瓜、黄瓜、黄瓜”。你没有足够的神经元来做到这一点。这是权重的临时变化。你可以通过暂时的体重变化做很多事情——快速,我称之为快速体重。我们在这些神经模型中不会这样做。我们 不这样做的原因是,如果您对取决于输入数据的权重进行临时更改 ,那么您就无法同时处理一大堆不同的情况。目前,我们采用一大堆不同的字符串,将 它们堆叠在一起,然后并行处理它们,因为这样我们就可以进行矩阵、 矩阵乘法,这样效率更高。正是这种效率阻止了我们使用快速重量。但大脑显然会使用快速重量来进行临时记忆,并且 您可以通过这种方式做很多我们现在不做的事情。我认为这是 我们必须学习的最重要的事情之一。我非常希望像 Graphcore 这样的东西,嗯,如果它们按顺序进行并且只进行在线学习,那么它们就可以使用快速权重。嗯,但这还没有解决。我认为当人们使用电导来衡量重量时,最终会解决这个问题。

提问:了解该模型的工作原理以及了解大脑的工作原理对您的思维方式有何影响

我认为有一个很大的影响,这是在一个相当抽象的层面上,那就是 多年来人们对拥有一个大型随机神经网络并只 给它大量训练数据并且它会学会的想法非常蔑视 做复杂的事情。如果您与统计学家、语言学家或人工智能领域的大多数人交谈,他们会说这只是一个白日梦。如果 没有某种与生俱来的知识,没。

您能否向我们介绍一下如何选择正确的问题来解决? 

首先让我纠正一下,我和我的学生做了很多最有意义的事情, 这主要是与学生的良好合作以及我选择非常好的学生的能力。这是因为 在七十年代、八十年代、九十年代和两千年代,很少有人研究神经网络。因此,少数 研究神经网络的人必须挑选最优秀的学生。所以这是一种运气。但我选择问题的方式基本上是,你知道,当科学家谈论它们如何工作时, 他们有关于它们如何工作的理论,这可能与事实没有太大关系, 但我的理论是我寻找每个人都同意某件事,但感觉不对劲,只是有一种轻微的直觉,认为它有问题 然后我会 对此进行研究,看看我是否可以详细说明为什么我认为这是错误的,也许我可以 用一个小型计算机程序制作一个小演示,以表明它不会按照您期望的方式工作。

让我举一个例子。嗯,大多数人认为如果你向神经网络添加噪声, 它的工作效果会更糟。嗯,例如,如果每次你输入一个训练样本时,你 都会让一半的神经元保持沉默,那么效果会更糟。事实上,我们知道如果你这样做并且可以证明这一点,它会更好地概括。嗯,举个简单的例子,这就是 计算机模拟的好处。你可以证明,你知道,你的想法是,添加噪音会让 事情变得更糟,而丢弃一半的神经元会让事情变得更糟,这在短期内是会发生的。但如果你像这样训练它,最终效果会更好。你可以 用一个小型计算机程序来证明这一点,然后你可以认真思考为什么会出现这种情况,以及它如何阻止 大规模复杂的共同适应。嗯,但我认为这就是我的工作方法。找到一些听起来可疑的东西并对其进行处理,看看您是否可以简单地演示为什么它是错误的。现在你觉得什么可疑?好吧,我们不使用快速权重听起来很可疑,因为我们只有这两个时间尺度。那是错误的。这根本不像大脑。嗯,从长远来看,我 认为我们必须有更多的时间表。这就是一个例子。 

如果你今天有一群学生,他们来找你,他们说,我们之前讨论过的汉明问题, 你就会知道:“你所在领域最重要的问题是什么?” 您 建议他们接下来要做什么?我们讨论了推理和时间尺度。

提问:您给他们的最优先的问题是什么?

现在对我来说,这是过去 30 年来我一直在思考的同一个问题, 即“大脑会进行反向传播吗?” 我相信大脑正在产生梯度。如果你没有获得梯度,你的学习效果就会比获得梯度差得多。但是大脑是如何获得梯度的?它是否以某种方式实现了反向传播的某种近似版本 ,或者是某种完全不同的技术?这是一个很大的悬而未决的问题,如果我继续做研究,这就是我要做的研究。 

提问:当你现在回顾自己的职业生涯时,你在很多事情上都是对的,但是你希望自己花更少的时间去追求某个方向,那么你错在哪里呢?

好的,这是两个不同的问题。一是“你错了什么?” 第二, “你希望少花点时间吗?”我认为我对玻尔兹曼机的看法是错误的 ,我很高兴我在它上面花了很长时间。关于如何获得梯度,它们是比反向传播更漂亮的理论。反向传播是普通且合理的, 它只是一个房间。玻尔兹曼机很聪明,它是一种非常有趣的 获取梯度的方式,我希望这就是大脑的工作方式,但我认为事实并非如此。

提问:您是否花了很多时间想象这些系统开发后会发生什么?你有没有想过,好吧,如果我们能让这些系统运行得很好, 我们就可以,你知道,使教育民主化,我们可以让知识更容易获得,嗯,我们可以解决医学上的一些棘手问题。或者对你来说更重要的是了解大脑?

是的,我,我觉得科学家应该做一些能够帮助社会的事情, 但实际上这并不是你最好的研究方式当好奇心驱使你进行最好的研究时。你只需要理解一些东西嗯,最近我意识到 这些事情可能带来很多好处,也可能带来很多伤害,而且我变得更加 担心它们会对社会产生的影响。

但这并不是激励我的原因。我只是想了解大脑到底是如何学会做事的?这就是我想知道的。我的失败有点像失败的副作用。我们有一些不错的工程,但是…… 是的,这对世界来说是一个很好的失败。

提问:如果您着眼于那些可能真正正确的事情,您认为最有前途的应用是什么?

我认为医疗保健显然是一个大问题。嗯,在医疗保健方面, 医疗保健社会可以吸收的资源几乎是无穷无尽的。如果你带一个老人,他们可能需要五名全职医生。嗯,所以当人工智能比人们做的事情更好时,嗯,你希望它在 你可以做更多事情的领域变得更好。我们可以需要更多的医生, 如果每个人都有自己的三位医生,那就太好了,我们将会达到这一点。嗯,这就是医疗保健良好的原因之一。还有新工程, 例如开发新材料,用于更好的太阳能电池板或超导性 ,或者只是为了了解身体的工作原理。嗯,那里会有很大的影响。这些都会是好事。

我担心的是坏人利用它们来做坏事。我们帮助普京等人将人工智能用于杀手机器人、操纵 公众舆论或大规模监视。这些都是非常令人担忧的事情。

提问:您是否担心过减慢该领域的速度也会减慢积极因素的速度?

哦,当然,我认为这个领域放缓的可能性不大,部分原因是它是国际性的,如果一个国家放缓,其他国家也不会放缓。因此,中国和美国之间显然存在一场竞赛,而且双方都不会放慢脚步。所以,是的,我不—— 我的意思是有一份请愿书说我们应该放慢速度六个月。我没有签署只是因为我认为这永远不会发生。我也许应该签署它,因为即使它永远不会发生,它也表达了一个政治观点。提出要求通常是件好事, 你知道,你不能只是为了表达观点。嗯,但我不认为我们会放慢速度。

提问:您认为这将如何影响人工智能研究过程,呃,拥有这些助手?

我认为这会提高效率。当你拥有这些助手来帮助你编程时,人工智能研究将会变得更加高效。

嗯, 而且还可以帮助你思考问题,并且可能还可以帮助你解决方程式。

提问:您对人才选拔过程进行过反思吗?这对您来说是最直观的吗 ?

就像当 Ilya 出现在门口时,你会觉得这是一个聪明人,让我们一起努力吧。所以,对于选拔人才,嗯,有时你就是知道。所以和 Ilya聊了没多久,他就显得很聪明,再聊下去,他显然很聪明, 直觉很好,数学也很好。所以这是理所当然的。

还有一个例子是我 参加 NIPS 会议。嗯,我们有一张海报,我,有人走过来,他开始问有关海报的问题,他问的每一个问题都是对我们做错了什么的深刻洞察。

嗯,五分钟后我给了他一个博士后职位。那个人就是大卫·麦凯(David MacKay),他非常 聪明,他的去世令人非常难过,但他是,很明显你会想要他。

嗯,其他时候这并不那么明显,我确实学到的一件事是人是不同的。好学生不只一种。嗯,有些学生虽然没有那么有创造力,但 技术非常强,可以做任何事情。还有一些学生技术不强,但非常有创造力。当然,您想要两者兼而有之, 但您并不总是能得到。

但我认为实际上在实验室里你需要各种不同类型的研究生。但我仍然遵循我的直觉,有时你和某人交谈,他们只是非常非常他们只是明白了,而这些就是你想要的

提问:您认为某些人拥有更好直觉的原因是什么?他们只是比其他人拥有更好的训练数据吗?或者你如何培养你的直觉?

我认为部分原因是他们不信胡说八道。因此,这里有一个导致糟糕直觉的方法:相信别人告诉你的一切。那是致命的。你必须能够——我认为这就是有些人 所做的。他们有一个完整的框架来理解现实,当有人告诉他们一些事情时,他们会尝试找出如何适合他们的框架,如果不适合, 他们就会拒绝它。这是一个非常好的策略。嗯,那些尝试将他们所告诉的一切都纳入其中的人最终会得到一个非常模糊的框架,并且可以相信一切,但这是没有用的。所以我认为,实际上对世界有一个强烈的看法, 并试图操纵传入的事实来适应你的观点,显然它会导致你陷入深刻的宗教信仰和致命的缺陷等等。就像我对玻尔兹曼机器的信仰一样。嗯,但是我认为这是正确的方法。

如果您有值得信赖的良好直觉,您就应该相信它们。如果你的直觉很差,那么你做什么都没有关系,所以你不妨相信它们。这是一个非常非常好的观点。

提问:当你看到今天正在进行的研究类型时,你是否认为我们把所有鸡蛋都放在一个篮子里,我们应该在该领域使我们的想法更加多样化 ?或者你认为这是最有前途的方向?那么让我们全力以赴吧?

我认为拥有大型模型并在多模式数据上训练它们, 即使只是预测下一个单词,也是一种很有前途的方法,我们应该全力以赴。

显然,现在有很多很多人在做这件事,而且有很多人在做明显疯狂的事情,这很好。嗯,但我认为像大多数人一样遵循这条道路很好,因为它运作良好。


提问:您认为学习算法有那么重要还是只是一种技能?是否有基本上数百万种方法可以让我们在智力方面达到人类水平, 或者是否有一些我们需要发现的精选方法?

是的,所以这个问题是特定的学习算法是否非常重要,或者是否有各种各样的学习算法可以完成这项工作。我不知道答案。在我看来,尽管反向传播,但从某种意义上说,这是正确的做法。获取渐变,以便更改参数以使其更好地工作。这似乎是正确的做法,而且取得了惊人的成功。很可能还有其他学习算法是获得相同梯度的替代方法,或者是获得其他东西的梯度并且也有效。嗯,我认为这都是开放的,现在是一个非常有趣的问题,关于是否还有其他事情可以尝试并最大化, 这将为您提供良好的系统,也许大脑正在这样做,因为它更容易, 但从某种意义上说,反向传播是正确的事情去做,我们知道这样做效果非常好。

问:最后一个问题。当你回顾自己数十年的研究时, 你是最引以为傲的是什么?是学生吗?是研究的事吗?当您回顾自己一生的工作时,什么让您最感到自豪?

玻尔兹曼机的学习算法。因此玻尔兹曼机器的学习算法 非常优雅。

在实践中这可能是无望的。嗯,但这是我最喜欢和 特里一起开发的事情,也是我最自豪的事情。嗯,即使是错的。您现在大部分时间都在思考哪些问题?是—— 嗯,“我应该在 Netflix 上看什么?”

Hinton对未来的研究方向充满期待。他认为,医疗保健、新材料开发等领域将是人工智能的主要应用方向。同时,他也对人工智能可能带来的社会影响表示担忧,强调需要谨慎对待技术的进步。

“我担心的是坏人利用它们来做坏事。”教授

茫茫人海
寻慢中同道
让我们自主的“慢”下来
回归学术智识的深度思考
让学术更从容
让你我更有力量
期待你我一起
“慢以致远”.....

图片来源:pinterest。免责声明:本号对所有原创、转载文章陈述与观点均保持中立,内容仅供读者学习和交流。文章、图片等版权归原作者享有,如有侵权,请留言联系更正或删除。

往期链接

  国自然中的科学问题如何寻找,六种方法请查收

  深度解析国自然:思考比写作更重要!如何真正理解“国-自然-科学-基 金”七字精髓?

顶刊与国自然究竟是如何相互成就的呢?科研人必备的底层元技能
目标导向vs自由探索:如何精准匹配你的国自然申请方向?
2025年国自然必备:图的布局是拿下A评的关键
2025年国自然申请的基础是顶刊:顶刊各个部分的写作范式如何呢?ChatGPT如何助力呢?10余年经验总结
磁热效应耦合洛伦兹力强化HER【慢教授和你一起读顶刊系列08】
双电层电容是理解双电层精微结构的关键,而其中的介电常数该如何理解呢?白话版本
水是HER和OER的通用反应物,不论电解质的pH如何【慢教授和你一起读文献10】
定量证据:阳离子的大小如何通过调节界面电场/电荷来调控电化学的反应活性【慢教授和你一起读文献09】

慢教授的科研江湖
我是慢教授, 茫茫人海,寻慢中同道。 分享国自然写作、 AI助力SCI论文、 好书阅读体感。 努力做一个有温度的分享者。 期待你我一起“慢以致远”.....
 最新文章