AI教母李飞飞最新演讲!AI的潜力,令人如此着迷!

教育   2024-09-02 20:56   北京  

  

   动动手指,获取新知

▲▲▲



九年前,李飞飞站在TED舞台上,发表了一个关于计算机视觉的早期进展报告,这是人工智能的一个子领域。


当时,有三股强大的力量首次汇聚在一起:被称为神经网络的算法家族,被称为GPU的快速专用硬件,以及像她的实验室花费多年时间策划的包含5000万张照片的图像集(ImageNet)这样的大数据。


当这些因素结合在一起时,不仅使计算机的视觉能力,达到了前所未有的高度,还开启了现代人工智能的时代。


在未来,我们能将整个世界以数字形式捕捉下来,能够模拟世界的丰富和细微差别,就像大自然在我们个人思维中潜移默化地做的一样。


随着空间智能的发展加速,这一良性循环的新时代正在我们眼前上演。空间智能技术使机器能够与人,以及真实或想象中的三维世界进行互动。


智能的产生


 李飞飞:我今天来这里是想和大家分享一些令我激动的关于人工智能的最新进展。

我演讲的题目是“从看见到行动:向计算机和机器人‘教授’空间智能”。真正让我兴奋的是,在座的各位都是像素达人,而像素真的让我很兴奋。

所以让我先给大家展示一些东西。好吧,除了这个logo,其实我什么也没展示给你们。


这就是5.4亿年前的世界,纯粹、无尽的黑暗。黑暗并不是因为缺乏光线,而是因为缺乏视觉。

实际上,阳光可以透过一千米的海洋表面,而热液喷口的光也能渗透到海底。尽管这里充满了生命,但在这些古老的水域中找不到任何一只眼睛,没有视网膜、没有角膜、没有晶状体。

所以,所有这些光、所有这些生命都是看不见的。


曾经有一段时间,“看见”这一概念尚未存在,它只是一种从未有过的东西,直到我们开始了解它。

三叶虫,第一个能感知光线的器官出现了。它们是我们认为的现实世界的第一批居民,也是第一个发现这个世界上还有许多其他自我的生物。

人们认为,这种视觉能力帮助开启了一个叫做寒武纪大爆发的时期,在这一时期,有大量不同种类的动物物种化石记录。

最初是被动的体验——单纯的光线进入,随后变得更加丰富和活跃。神经系统开始进化,视力转变为洞察力,看见变成了理解,理解引导了行动,所有这些都促成了智能的产生。

因此,在5亿年后的今天,我们不再满足于仅仅拥有自然赋予我们的视觉智能。

我们的好奇心促使我们创造出能像我们一样聪明,甚至比我们更聪明的机器。

图片来源:Figma


空间智能的发展


 李飞飞:神经网络算法的速度和准确性逐年迅速提高。由我的实验室主导的年度ImageNet挑战赛评估了这些算法的表现,每年提交的数据都在刷新纪录,你们可以从这幅图中可以看到一些模型、里程碑模型的年度进展。

我们还进一步开发了能够分割物体的模型,甚至能够识别视频中物体之间的动态关系,而不仅仅是标记物体。

但还有更多事情要做。

我记得,大约10年前,我展示了第一个可以用人类自然语言描述图像和照片的计算机视觉算法,这是一种自动撰写字幕的方法,这是与我出色的前学生Andrej Karpathy共同完成的。

那时,我想试试运气,让Andrej操作计算机做相反的事情,根据口头描述创建图像。

Andrej说这是不可能的。

然而,正如你最近在这条推文中看到的,在短短几年内,不可能的事情变成了可能,这要归功于最近在生成式AI中使用的扩散模型的发展。

现在,AI程序可以根据任何人类输入的句子创建全新的照片或视频。



你们中的许多人已经看到了Sora OpenAI的成果,即使没有大量的GPU也可以实现。

我的学生和我们的合作者在Sora之前几个月就创造了一个名为Volt的生成模型。这只是部分成果。

当然,我们还有成长的空间,我们也会犯错误。比如,看看猫眼是如何潜入波浪之下而不被弄湿的,真是个灾难。

但你们已经克服了这些,我们将从这些错误中学习,创造我们想象中的未来。在未来,我们希望充分利用AI的所有潜力。


多年来,我一直在说,拍一张照片并不等于看到和理解它。

现在我想补充一点,单单看到是不够的,看到是为了做和学习。

当我们在三维时空中行动时,我们就会学习,学习如何看和做得更好。大自然创造了这种由空间智能驱动的'看'与'做'的良性循环。


让我们来看看这张照片,如果这张照片让你想做点什么,请举手,如果这种情况在现实生活中真的发生过,请继续举手。

在瞬间,你的大脑会看着玻璃杯的几何形状,它在三维空间中的位置,它与桌子、盖子及周围所有物体的关系,然后你预测接下来会发生什么。


不仅如此,你的大脑已经计算出了让你冲向那个玻璃杯从而拯救你的地毯的动作。


对于具有空间智能的生物,这种行动的冲动是与生俱来的,空间智能将感知与行动联系在一起。

因此,要推进人工智能的发展,就必须超越它的能力。

今天,我们需要的不仅仅是能看或能说的人工智能,我们需要能做的人工智能,就像大自然赋予我们的那样。

实际上,我们在这方面正取得令人兴奋的进展,我们在空间智能方面的最新里程碑正在催化这个良性循环,即教会计算机看、做、学,然后看得更好、做得更好。


这并不容易。

动物花了数百万年的时间进化出空间智能,这依赖于眼睛使用光线将二维图像投射到视网膜上,再由大脑将这些图像翻译成三维。

直到最近,谷歌的一组计算机视觉研究人员才做到这一点。

他们创建了一种算法,可以仅通过一组照片将数据转化为三维形状。以下是他们工作的更多成果。

同时,我在斯坦福的学生和同事更进一步,创建了一种仅需一张图像就能生成三维形状的算法。以下是我们工作的一些成果。


回想一下,我们之前用文本输入来生成视频。密歇根大学的一组研究人员想出了如何将一行文本转化为三维空间布局。

这为室内设计和规划设计的提供了可能性。

与此同时,我在斯坦福的同事和学生们开发了一种算法,可以将一幅图像生成无限可能的空间供观众探索,或者说像进入一个完全不同的世界,这些原型是未来可能性的第一个萌芽迹象。

在未来,我们将整个世界以数字形式捕捉下来,能够模拟我们世界的丰富和细微差别,就像大自然在我们个人思维中潜移默化地做的一样。

随着空间智能的发展加速,这一良性循环的新时代正在我们眼前上演。


空间智能的未来展望


 李飞飞:这种反反复复的学习正在推动机器人学习,这是任何需要直接理解三维世界并与之互动的智能系统的关键组成部分。

十年前,我的实验室利用图像技术建立了一个拥有数百万张高质量图像的数据库,帮助计算机观看学习。


现在,我们正在通过行为和动作来教会计算机如何在三维世界中行动。

我们不再手动创建训练示例,而是利用由3D空间模型驱动的仿真环境,提供无限的变化和互动。

你现在看到的只是在仿真环境中训练机器人的无限可能性中的一小部分示例。这是我实验室开发的一个名为Behavior的项目。

此外,基于大语言模型的输入,机器人语言智能也取得了令人激动的进展。


我的学生和合作者们是首批展示机器臂能够根据口头指令执行广泛任务的团队之一,比如,“你能打开顶层抽屉并小心花瓶吗?”,或者“可以拔掉充满电的手机吗?”或者“你能让机器人做一个三明治并为人们放上餐巾纸吗?”通常我想我的三明治上有更多配料,但这不是一个坏的开始。


在5.4亿年前的原始海洋中,能够看到并感知周围环境的能力引发了寒武纪大爆发,引发了其他生命形式的互动。

今天,这束光正在数字智能中开始传播,就像它曾经影响我们的祖先一样。



空间智能技术使机器能够与人,以及真实或想象中的三维世界进行互动。

我们可以想象这将对许多人的生活产生深远的影响。

以医疗保健为例。在过去的十年中,我的实验室与斯坦福医学院的学生和同事以及合作医院一起,率先应用AI技术解决影响患者治疗效果和医护人员工作疲劳率的挑战。

我们正在试验智能传感器,这些传感器可以检测临床医生是否正确洗手进入患者房间的情况,跟踪手术中的器械,并在患者面临跌倒风险时提醒护理团队。我们认为这种技术是环境智能的一种形式,而这些额外的“眼睛”确实产生了影响。

但我希望看到更多技术来帮助患者、临床医生和护理人员,他们也急需额外的帮手。

想象一下,自主机器人运输医疗用品,这样护理人员就能有更多时间陪伴病人;想象一下,增强现实技术可以引导外科医生进行更安全、更高效、创伤更小的手术;想象一下,严重瘫痪的病人可以用脑电波控制机器人。因此,它们可以完成我们日常中的任务。

事实上,在我的实验室的一项试验研究中,我们已经看到了这种未来的曙光,正如你在这段视频中看到的,一个机器人手臂正在通过非侵入性采集的脑电信号控制烹饪日式寿喜烧。


因此,5亿年前,视觉的出现不仅扭转了黑暗的世界,还开启了最深刻的进化过程,即动物世界的智能发展。

AI在过去十年中取得的惊人进步同样令人震惊,但真正的数字“寒武纪大爆发”要等到计算机和机器人发展出大自然赋予我们所有人的那种空间智能,才能充分发挥其潜力。

现在还不是训练我们的数字伙伴学会如何推理和与我们称之为家的这个的三维空间互动,以及为我们所有人创造许多新世界的时候。


实现这一未来并非易事。

这需要我们采取深思熟虑的措施,开发以人为本的技术。

如果方法得当,由空间智能驱动的计算机和机器人将不仅是有用的工具,还将成为值得信赖的伙伴,在尊重我们个人尊严和提升我们集体繁荣的同时,增强和提高我们的生产力。

因此,最让我兴奋的是,在未来,随着人工智能的感知力、洞察力和空间意识不断增强,它将与我们一起追求更好的方式,满足我们的好奇心,从而创造一个更美好的世界,谢谢!

 图片来源:Figma

原视频:Config 2024: Math is clean, but humans are messy (Dr. Fei Fei Li) | Figma

https://www.youtube.com/watch?v=wYXP6SivTD0

编译:焦慧茹




推荐阅读👇
让孩子看见未来

点击左下角的「阅读原文」即可订阅 2024《少年时》第十辑(109-120)

少年时
面向未来的国际化优才成长平台,以前瞻、探究、明辨为原则,与国际顶尖的阅读和教育资源接轨,致力于同时培养青少年科学和人文素养,促进人的全面发展,为未来提供更多的可能性。
 最新文章