来源:Amii
编译:OneFlow
OpenAI下一代GPT近期被爆遇到瓶颈,这让“Scaling Law撞墙”的声音变得更响,尽管业内对此争论不休,但现实情况是,大模型确实不再像年前那样有突飞猛进的进展。
作为启发大模型领域提出Scaling Law的研究者,强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中,他指出,AI研究在过去70年的一大教训是过于重视人类既有经验和知识,利用大规模算力才是王道。不过现在,他也不时发声称,AI社区过于沉迷深度学习,通过语言大模型方向来实现智能没有前途。
此前,他在《强化学习之父Richard Sutton:通往AGI的另一种可能》一文中指出,实现AGI需要明确的目标和一个世界模型,并利用这个模型来制定行动计划以实现目标。
只靠当前的深度学习显然无法实现这一目标。在Amii(加拿大阿尔伯塔机器智能研究所)近期的视频访谈中,他批评深度学习完全主导了这一领域的研究,却忽视了它的局限性,这让他感到失望,不得不自己下场研究。
他认为,深度学习做的是瞬态学习,在学习一个特定的阶段后不再学习,他呼吁研究者要应该研究在现实环境中持续学习和适应的系统。对此,他最看好持续学习,也就是进行元学习、表示学习、学会如何学习、学会如何泛化、以及构建状态表示特征。这个过程将是一种全新的深度网络学习方式,他称之为动态学习网络。
在这一期访谈中,Richard进一步阐述了持续学习,并对年轻研究者给予了研究建议。正如他反对一股脑投入热门的深度学习研究,他希望研究者对流行趋势保持中立心态,选择一个既重要又可能出成果的问题。
(本文由OneFlow编译发布,转载请联系授权。视频:https://www.youtube.com/watch?v=NvfK1TkXmOQ)
1
强化学习研究的早期灵感
Rich:世界就是我们与之互动并向其发送信息的地方。世界本身就是被构建出来的,我们向世界发送信息,世界也向我们的眼睛等感官反馈信息,所以,我们可以理解我们向其发送信息并接收信息的整个过程。关键在于构建和转换模型,这样你就能进行规划,如果你能够规划,并通过反复试错来学习,这就是我对思维的理解。
2
线性与非线性的两难选择
随着时间的推移,我们已经研究出良好的线性映射方法。如果任务是学习一个线性关系,那么现有的方法或技术就能很好地应对。我们可以在线学习,也可以持续学习。
3
深度学习做的是瞬态学习
我喜欢从我们想要产出什么来思考:我们是在试图生产一个固定并表现良好的系统吗?我们的最终产品是否能够在遇到新事物时继续学习?每天工作时,你会想,“我真厉害,只需要做同样的事情。”还是会想,“他们给我付钱的原因是因为我能够适应发生的事情,可以灵活应对并学习新事物。”两者都很重要,但对我来说,适应能力似乎总是非常重要。硬智力是遵循特定规则的能力,还是适应任何事情发生的能力?
4
持续学习的重要性
5
单一目标就是获得奖励
6
关于智能的预测
7
对研究者的建议
Alona:你对学生或其他研究人员在选择研究内容和取得良好进展方面有什么建议吗?
Rich:准备一个笔记本,每天写下你的想法,并努力让它们更加完善。试着去挑战你的想法,让它们不断进步。如果你希望别人对你的想法感兴趣,那么首先你自己要在意它。至少得花点心思,愿意花时间把它写下来、思考、挑战,并不断发展这是最重要的。
我用了这种方法,大概用了25本实体笔记本进行记录,现在我只在MacBook上写了,有时确实会回头看看,这改变了我的整个轨迹。不过,这真的很难,因为面对空白的纸张,你可能不知道从何说起,也许对自己的想法还很困惑,但我认为能够帮助克服这种困惑的方法是,意识到写下模糊和混乱的想法通常会带来价值。它们的价值往往和记录它们的难度成正比。如果你觉得“我甚至不知道从哪儿开始,这些想法太乱了,无法写下来”,那正是它们变得有价值的时刻。当你真的将这些想法写下来时,就迈出了重要的一步。
Scott:这是不是意味着你有一个真正想要实现的想法?这会是信号吗?
Rich:不是这样,那样反倒会有点可怕。只是让你面对那张纸,试着向自己说明你究竟在想什么。如果真的不知道写什么,就写下“我觉得我脑海里有哪六个有趣的想法”。然后逐一写下来,标出一到六。然后问自己,“这真的是全部吗?是否还有第七个?”或者想想,这六个中是否有两个其实是相似的。再花一段时间去解释每个想法,向自己解释你真正的思路是什么。
在这个过程中,你可能会发现:“哦,这个想法在我试图解释它的时候好像就消失了。”也许它并不是什么特别的想法,或者在你写的过程中它逐渐成长并发生了变化。这些都是可能发生的事。所以,保持写作的习惯很重要。尽量每天写一页,不必太有压力,但要保持定期写作的节奏。
第二个建议是,尽量对流行趋势保持中立,选择一个对你来说既重要又可能有成果的问题。无论某个方向是热门还是冷门,都不应影响你。因为如果它很流行,那么确实会更容易研究,因为人们理解它,但它的价值可能较低,因为许多人都在做这个领域的研究。
Alona:你有什么建议,能帮助我明确下一步该做什么吗?
Rich:我会先写下六件我认为有趣的事儿,并逐一解释它们。然后回过头来看,思考一下现在可以具体研究哪一个。这并不是说找到一件事后就立刻去做,研究的本质就是需要尝试各种事情,大多数事情可能都不会成功,或者不会立刻见效。
阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”
截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告
上下滑动查看更多