【源头活水】我在 NeurIPS’24 上感受到了焦虑和挫败

科技   2024-12-28 18:02   北京  

沿广注!

现在许多博士生和博士后很有挫败感,因为许多学校培养的本科生就已经具备企业所需的标准化机器学习开发技能,而大量博士生却因此找不到合适的工作。

2024 年 12 月 10-15 日,今年度的 NeurIPS 已在加拿大温哥华成功举办。今年的会议上,我们看到了 Ilya Sutskever 关于预训练即将终结的预测,也看到了引发广泛争议的 MIT 教授 NeurIPS 演讲公开歧视中国学生的事件。


该会议也展现了人工智能领域的研究盛况 —— 本届 NeurIPS 共收到 15671 篇有效论文投稿,比去年又增长了 27%,但最终接收率仅有 25.8%。如此低的接收率就必然意味着许多研究者的失意和挫败。但这并不是研究者们感到挫败的唯一原因。


近日,纽约大学计算机科学和数据科学教授、生物技术公司 Prescient Design 联合创始人兼资深主管 Kyunghyun Cho 一篇题为「我在 NeurIPS’24 上感受到了焦虑和挫败」的博客文章引发了广泛讨论。他在文中指出,现在许多博士生和博士后很有挫败感,因为许多学校培养的本科生就已经具备企业所需的标准化机器学习开发技能,而大量博士生却因此找不到合适的工作;原因是随着 AI 相关技术的产品化,企业对博士技能(研究和创新)的需求已经大幅下降,而更多需要支持其产品迭代的工程师。


看完这篇文章后,许多读者也分享了自己的经历和看法。


有 AI 博士现身说法,指出很多博士研究者对学术环境之外的状况关注不足,从而对未来的职业有了过高的期待。



一些读者对文章表示认可,表示要在科技行业工作,光有专业技能还不够,还得通过 leetcode / 系统设计和领导力准则考试。


而博士研究者虽然收入高,但行业需求不足,毕竟一家公司并不需要那么多研究科学家:


但也有读者并不认可,表示参加 NeurIPS 的人已经有顶会论文傍身,找份工作应该不难。


以下是 Kyunghyun Cho 教授的博客全文,也请与我们分享你的经历和看法。

我在 NeurIPS’24 上感受到了焦虑和挫败


上周在 NeurIPS’24 上,一个非常突出的现象是:四年级博士生和博士后表现出了焦虑和挫败,他们对就业市场感到困惑,因为无论是看起来还是感觉上,就业市场与他们五年前申请博士项目时的预期大不相同。并且,其中一些博士生和博士后正是在我自己的指导之下。这让我反思人工智能研究和开发领域正在发生的情况。这篇文章更像是一连串的思考,而不是一篇结构良好的文章(不过我好像也没有写过一篇结构良好、经过深思熟虑、准备充分的博客文章。)。

对机器学习领域以及更广大的人工智能领域而言,过去十年左右是一段非常有趣的时间。从 2010 年左右的语音识别开始,深度学习已经在当年的最佳技术上实现了大幅提升,并且已经可以解决多种多样的高难度也实用的问题,比如从图像中识别物体和机器翻译。到 2014 年,很明显大的要来了,每一家大公司,无论是不是科技公司,都想确保自己是这场持续革命的一部分,并从中获利。

由于那时候,深度学习很多年来都未曾成为主流,因此几乎没有本科课程严肃地教授深度学习背后的基本思想和技术。事实上,当然许多机器学习和人工智能课程都只会简单提到人工神经网络。于是,深度学习人才方面出现了巨大的供需不平衡,这就迫使那些比其他公司更早看到这场革命的公司激进地从全球少数实验室招募博士生。

因为当时世界上只有少数几个实验室在认真研究深度学习(不像现在这样),所以公司们都在激烈争夺这些实验室的毕业生甚至教授。这种激烈的争夺自然导致这些拥有人工神经网络经验和专业知识的博士生的薪酬大幅增加。这使得人工智能领域中的学术薪酬与行业薪酬之间的差距还要更大,让大学很难招募到此类人才来教育学生。事实上,在 2010 年至 2015 年期间获得博士学位并且在攻读博士学位期间研究人工神经网络,并作为终身教职人员加入大学的人非常少,我就是其中之一。这种现象自然会导致人才供应的增加大大延迟,而需求还在继续飙升。

这种激烈的人才争夺有一个有趣的副作用:即使这些人才不能为营收或利润做出贡献,公司也会招募他们。这些公司聘用他们的原因是为不可避免的、迫在眉睫的革命做好准备 —— 这场革命将改变他们所做的一切。因此,那时候很多被聘用的博士的任务就是自由地做研究;也就是说,他们可以选择自己想做的事情,发表自己想发表的文章。这就像一个学术研究职位,但薪酬是原来的 2-5 倍,而且外部可见度更高,没有教学任务、行政开销,也没有不断撰写资助提案的压力。真是一个绝佳的机会!

我想,这在当时的学生看来是个不可错过的机会,包括大学生和高中生(甚至初中生)。有机会获得惊人的金钱回报、优厚的福利,可以自由选择自己喜欢的研究课题,只要它是在人工智能领域内。然而,这个机会看起来只提供给在人工神经网络方面发表过学术论文的博士。这就导致大量的博士申请者申请成为(现在所谓的)人工智能博士生(AI PhD students)。

申请者的大量涌入并不一定意味着我们最终会有大量博士生,因为限制博士生数量的并不是申请者的数量,而是导师的数量。虽然 15 年前那会儿,研究人工智能的实验室并不多,但到 2016 年时,许多教授已经将他们的实验室转型为深度学习实验室,并通过招收大量博士生来积极扩大实验室规模。

因此,我们似乎已经造出了一个非常好的  AI 人才训练管道。很多优秀的学生申请攻读博士学位。大量研究 AI 的教授录取并培养这些优秀的学生成为下一代博士。少数大型科技公司和其他公司用难以想象的优厚薪酬和研究自由来聘用他们。

然而,事后看来,这显然是不可持续的。要继续下去,唯一的办法就是让深度学习继续成为能够在五年内彻底改变行业(甚至整个社会)的东西,而且每年都必须是五年。如前所述,公司正在招募这些人才,并投资建设给他们进行研究的环境,以应对未来不可避免的变化。换句话说,他们必须为未来做准备,才能让这条管道继续下去。

第一代幸运的博士(包括我!)是因为运气好(或不好)进入了这个领域,而不是因为职业前景;之后,我们开始有一系列更聪明、更有目标的博士从事深度学习工作。因为这些人非常有动力,他们不是靠运气而是靠他们的优点和热情被选中。他们开始取得更快、更明显的进步。不久之后,这些进步开始以实际产品的形式出现。尤其是以大规模对话语言模型为代表的大规模模型开始展现出:这些产品是真正革命性的产品,既可以改变未来,又可以在当下产生经济价值。换句话说,通过将深度学习变成大规模对话语言模型及其变体形式的产品,这些新一代的优秀博士们成功地将未来带入了当下。

产品化意味着很多事情,但本文尤其关注两个方面。

第一,产品化需要在开发和部署过程中实现某种标准化。然而,这种流程标准化与科学研究背道而驰。我们不需要持续不断的创造性和颠覆性创新,而需要基于标准化流程的渐进式和稳定的改进。博士们不擅长这方面,因为这恰恰与博士项目的培养目标背道而驰。博士生的目标是提出创新的想法(是的,虽然每个想法都能否算是创新想法这一点值得商榷,但往往至少有大量噪声才算是创新),从理论或实证角度验证这些想法,通过撰写论文向社区报告研究结果,然后继续前进。一旦某样东西变成了真正的产品(或产品类别),我们就不能简单地创新然后继续前进,而需要坚持下去,不断为它提供支持。有了完善的流程体系,博士学位的必要性就会迅速消失。

第二,产品化创造了一条通往收入的明显而具体的路径。这对那些投资招募这些杰出人才并提供资源让他们在组织内部而不是其他地方进行创新的公司来说是件好事。不幸的是,一旦有了一条通往收入(最终是利润)的具体路径,研究人员就越来越难以继续要求充分的研究自由。许多人将被要求直接为产品(或产品类别)做出贡献,并证明他们的报酬以及整体就业情况的合理性,只有少数人将被允许继续享有研究自由。这是很自然的事情,也可能是大多数组织(包括营利组织、非营利组织、政府组织等)的研究团队往往比产品团队小得多、获得的资源也少得多的原因。

此外,在过去几年中,大学在一定程度上跟上了需求,开始对本科生和硕士生进行这些新技术背后的基础知识和实用理念方面的教育、培训和培养。他们知道如何训练这些模型、测试这些模型和部署这些模型,以及这些模型背后的理论理念。更好的是,他们大概率没有博士那么「自我」,而且通常思想更加开放。

这些因素加在一起,彻底打破了之前概述的人工智能人才梯队。公司不再需要那么多博士,因为他们可以招聘本科生或硕士生,这些学生可以按照标准化流程立即直接为人工智能产品做出贡献。学生们不需要进入博士课程学习必要的技能,因为大学可以将其作为本科课程的一部分进行培训。目前的博士生们,即使是因为基于这一人工智能人才梯队的积极职业前景而加入博士课程,也会被排除在人工智能人才梯队的这次大重组之外。

在这一点上,这些即将结束博士学业的学生焦虑和挫败的程度大大增加也许并不奇怪。他们仰慕我这一代人(虽然还相对年轻、资历较浅,但在这个领域可能算是资历较深的人),认为只要他们的博士学位与机器学习及邻近领域有一定关联,他们就能享有类似的职业前景 —— 成为大科技公司的高薪研究科学家,享有极大的研究自由。

但从他们的角度来看,就业市场突然要求他们在大规模语言模型及其变体这个狭窄得多的领域展示自己的创新能力,并直接为这些建立在大规模模型之上的产品做出贡献。

话虽如此,但我必须强调,这绝不意味着这些大模型之外的人工智能研究课题不重要或不受追捧

例如,在 Prescient Design 公司,我们一直在不断招聘博士级研究科学家,他们专门从事不确定性量化、因果机器学习、几何深度学习、计算机视觉等方面的研究,因为这些领域的研究和开发与我们的工作(即 lab-in-the-loop)直接相关。

大模型只是近年来备受关注的人工智能的一个特殊子领域。我对这些大模型的进展和进步感到无比兴奋,但它们并不是唯一值得关注和投资的领域。然而,对大语言模型及其变体的关注程度高得离谱,这很容易蒙蔽我们的眼睛,尤其是那些还是学生的人,甚至是所谓精英大学的教师。学生们如果没有或正在撰写关于大模型的论文,自然会感到焦虑,因为他们可能得不到这些机会。

在这一点上,我觉得上周在 NeurIPS 大会上与高年级博士生和博士后的交谈和聆听中感受到的高度焦虑和挫败感是事出有因的。他们中的一些人可能感到被背叛了,因为他们之前得到的承诺与现在看到的差距正在迅速拉大。他们中的一些人可能感到无助,因为他们选择的研究课题和他们在这些课题上的工作似乎不太受这些公司的欢迎。他们中的一些人可能感到挫败,因为本科生或硕士生似乎更擅长训练和部署这些大模型,而且看起来比他们更有价值。

遗憾的是,我只能努力理解这些才华横溢的学生感受到的焦虑和挫败感,却想不出什么办法来帮助他们减轻这种挫败感!

参考链接:
https://kyunghyuncho.me/i-sensed-anxiety-and-frustration-at-neurips24/
https://www.reddit.com/r/MachineLearning/comments/1hjp5gc/d_i_sensed_anxiety_and_frustration_at_neurips24/

击呗!

人工智能前沿讲习
领先的人工智能知识平台
 最新文章