让我给你展示一些东西。准确地说,我不会展示任何内容。5.4亿年前的世界是纯粹的、无尽的黑暗。这种黑暗并非因为缺少光线,而是因为缺乏视觉的存在。阳光虽然可以穿透海面以下1000米的深度,光线也从海底的热液喷口中散发出来,海底充满了生命,但这些古老的水域中却没有任何眼睛。本文是学习笔记未经相关人员校对,仅供学习交流使用。
那时,没有视网膜、角膜或晶状体。所以,所有这些光线和生命都未曾被看到。曾经有一段时间,“看见”这个概念根本不存在,从未有生物“看见”过这个世界。直到有一天,情况发生了变化。
出于我们刚刚开始理解的原因,三叶虫出现了。它们是地球上第一批能够感知光线的生物,是我们今天习以为常的这个现实世界的首批居民。
最早的发现是世界上不仅仅只有“自己”,还有一个充满“多种自我”的世界。视觉的能力被认为引发了寒武纪大爆发——在这个时期,大量的动物物种进入了化石记录。
最初,这种视觉能力只是一个被动的体验——简单地让光线进入。然而,不久后,这一过程变得更为主动。神经系统开始进化,视觉逐渐转化为洞察力。看到变成了理解,而理解推动了行动。所有这些都促成了智能的产生。
今天,我们不再满足于自然赋予的视觉智能。好奇心驱使我们创造出能像我们一样聪明地“看”的机器,甚至希望它们能超越人类的能力。九年前,我在这个舞台上介绍了计算机视觉(人工智能的一个分支领域)的早期进展报告。
当时,三股强大的力量首次汇聚在一起。一个被称为神经网络的算法家族,快速且专用的硬件——图形处理单元(GPU),以及大数据共同推动了现代人工智能的发展。比如,我的实验室花费多年整理了一个包含1500万张图像的数据集,名为ImageNet。这些要素结合在一起,开启了现代AI的时代。
我们已经走了很长的路。那时,给图像打上标签就是一个重大的突破,但这些算法的速度和准确性很快得到了极大的提升。
我的实验室主导的年度ImageNet挑战,评估了这些进展。在这张图表上,你可以看到每年算法的改进和一些重要的模型。
我们更进一步,创造出能够对物体进行分割的算法,甚至可以预测它们之间动态关系,这些工作由我的学生和合作伙伴完成。而且,这还不止于此。
还记得上次我展示的第一个能够用自然语言描述照片的计算机视觉算法吗?那是计算机视觉领域的一个重要里程碑。那是我和我出色的前学生安德烈·卡帕西(Andrej Karpathy)合作完成的工作。当时,我大胆地提出:“安德烈,我们能让计算机做相反的事情吗?” 安德烈笑着回答:“哈哈,那是不可能的。”然而,如你所见,最近曾经被认为不可能的事情现在成为了可能。
这要归功于一种名为扩散模型的算法家族,它为当今的生成式AI算法提供了动力。这些模型能够根据人类给出的提示,将其转换成全新的照片和视频内容。许多人可能已经见过OpenAI推出的Sora的惊人成果。
然而,即使在没有大量GPU支持的情况下,我的学生和我们的合作伙伴在几个月前也开发出了一个名为Walt的生成视频模型。你现在看到的就是其中的一些成果。虽然仍有改进的空间,比如那只猫的眼睛,以及它在波浪下穿行却没有被打湿的情形。
“真是个‘喵’星灾难啊!”(观众笑声)
如果过去可以作为序幕,那么我们会从这些错误中学习,并创造出我们想象的未来。在这个未来中,我们希望人工智能能为我们做所有能做的事,或者帮助我们实现这些事。
多年来,我一直在说,拍摄一张照片与真正的“看到”和“理解”并不相同。今天,我想补充一句:仅仅“看见”是不够的。看见是为了行动和学习。当我们在三维的时空中对这个世界采取行动时,我们学习,并且学会更好地看见与行动。
大自然创造了一个“看见与行动”的良性循环,这个循环是由“空间智能”驱动的。为了向你们展示你们的空间智能在不断做什么,请看看这张图片。举手示意,如果你觉得自己想要做点什么。(观众笑声)
在刚刚那一瞬间,你的大脑分析了这个玻璃杯的几何形状,它在三维空间中的位置,它与桌子、猫以及周围一切事物之间的关系。你甚至可以预测接下来会发生什么。
这种行动的冲动是所有具备空间智能的生物的本能,它将感知与行动紧密相连。如果我们希望人工智能超越目前的能力,我们不仅需要它能“看见”和“说话”,更希望它能够“行动”。
事实上,我们在这方面已经取得了令人兴奋的进展。近期在空间智能领域的里程碑成果,让计算机学会了“看、学习、行动”,并且不断改进这些能力。虽然这并不容易,自然界花了数百万年的时间才进化出空间智能。它依赖于眼睛接收光线、在视网膜上投影二维图像,并且通过大脑将这些数据转换为三维信息。
直到最近,Google的研究团队才开发出一种算法,能够通过一组照片重建三维空间。我的学生和合作伙伴更进一步,创建了一个能够将单张图像转换为三维形状的算法。这里展示了一些例子。
我们之前提到过,有些计算机程序能够根据人类给出的描述生成视频。密歇根大学的研究团队开发出了一种方法,可以将一句话转化为三维房间布局,就像这里展示的那样。而斯坦福大学的同事和他们的学生则开发了一种算法,可以通过一张图像生成无限可能的空间,供用户探索。
这些都是未来可能性萌芽的原型。人类或许能够在未来将我们整个世界转化为数字形式。
在最后的那一瞬间,你的大脑分析了这个玻璃杯的几何形状、它在三维空间中的位置、它与桌子、猫以及周围其他事物的关系。你甚至能够预测接下来可能发生的事情。这种行动的冲动是所有具备空间智能的生物的本能,它将感知与行动紧密相连。
如果我们希望人工智能进一步发展,我们不只是需要它能“看见”和“说话”,更希望它能够“行动”。实际上,我们在这方面已经取得了令人振奋的进展。最近在空间智能领域的突破,让计算机学会了“看、学习、行动”,并不断提升这些能力。
这并不容易。自然界花了数百万年才进化出空间智能,这依赖于眼睛接收光线、在视网膜上投影二维图像,并通过大脑将这些数据转换为三维信息。直到最近,Google的一组研究人员开发出一种算法,能够通过一组照片重建三维空间。我的学生和合作伙伴更进一步,开发出一种算法,可以通过一张图像生成三维形状。
还记得我们之前提到的计算机程序吗?它们能够根据人类描述生成视频。密歇根大学的研究人员开发出了一种方法,可以将一段文字描述转换为三维房间布局。斯坦福大学的同事们则开发了一种算法,可以通过一张图像生成无限可能的三维空间,供用户探索。
这些都是未来可能性萌芽的原型。在这个未来,人类或许可以将我们整个世界转化为数字形式,并对其丰富性和细微之处进行建模。自然为我们的个体心灵所做的事情,空间智能技术可能会为我们集体的意识做到。
随着空间智能技术的进步,一个全新的良性循环正在我们眼前展开。这个循环正在推动机器人学习的发展,这是任何需要理解和与三维世界互动的具象智能系统的重要组成部分。
十年前,我的实验室通过ImageNet,提供了数百万张高质量的照片数据库,帮助训练计算机“看见”。今天,我们正在通过行为和动作训练计算机和机器人如何在三维世界中“行动”。但这次,我们不是收集静态图像,而是开发基于三维空间模型的模拟环境,让计算机有无限种可能去学习如何行动。这些只是我们为训练机器人所做的一小部分努力。
我们在机器人语言智能方面也取得了令人兴奋的进展。通过基于大型语言模型的输入,我的学生和合作伙伴成为了首批能够展示机器人手臂根据口头指令完成各种任务的团队之一,比如打开抽屉或拔出充电中的手机,甚至可以制作三明治,为用户准备好面包、生菜、番茄,还会放上一张餐巾。虽然我希望我的三明治更丰富一些,但这已经是个很好的开始。(观众笑声)
在那片原始的海洋中,在我们古老的时代里,能够“看见”和感知周围环境的能力引发了寒武纪大爆发——这是一个与其他生命体互动的繁盛时期。今天,这种光芒正照亮着数字化的思维。空间智能正让机器不仅能与彼此互动,还能与人类以及三维世界互动,无论是真实的还是虚拟的。
随着这一未来逐渐成形,它将对许多人的生活产生深远的影响。以医疗为例,过去十年,我的实验室在将人工智能应用于解决影响患者治疗效果和医务人员疲劳的问题上迈出了第一步。我们与斯坦福大学医学院和合作医院的伙伴们一起,正在试点智能传感器,能够检测到医务人员在进入病房前是否正确洗手,或者追踪手术器械的位置,或者在患者面临跌倒等身体风险时提醒护理团队。
我们将这些技术视为一种环境智能,就像多了一双额外的眼睛,确实能带来改变。但我希望我们能为患者、医务人员和护理人员提供更多的互动帮助,他们也迫切需要一双额外的手。
想象一下,一个自主机器人在运送医疗用品的同时,护理人员可以更专注于患者的照护;或者增强现实技术指导外科医生进行更安全、更快速且创伤更小的手术。再想象一下,严重瘫痪的患者能够通过他们的思维来控制机器人。是的,利用脑电波来完成那些你我视为理所当然的日常任务。
你现在看到的,就是这种未来的一个小小的预览,这是我实验室最近的一个试点研究。在这个视频中,机械臂通过脑电信号控制,正在烹饪一道日式寿喜烧。所有的信号都是通过非侵入性的脑电图(EEG)设备收集的。
大约五亿年前,视觉的出现颠覆了一个黑暗的世界,引发了最深远的进化过程:动物世界中智能的进化。而人工智能在过去十年的惊人进展同样令人叹为观止。但我相信,这场数字化的“寒武纪大爆发”的全部潜力,只有在我们为计算机和机器人注入更多的能力后,才能真正实现。
通过赋予计算机和机器人空间智能,就像大自然赋予我们一样,才能真正实现它们的全部潜力。这是一个激动人心的时代,我们可以教导这些数字伴侣学会推理、与我们美丽的三维世界互动,同时创造更多全新的世界供我们探索。
实现这一未来并不容易,这需要我们每个人共同努力,审慎地迈出每一步,并开发出始终以人为本的技术。但如果我们做对了,具备空间智能的计算机和机器人不仅会成为有用的工具,还将成为值得信赖的伙伴,帮助提升我们的生产力和人性,同时尊重个体尊严,推动集体繁荣。
未来最令我兴奋的是一个人工智能更加感知敏锐、洞察力强且具有空间意识的世界。它们将与我们一起,始终追求更好的方法,创造一个更美好的世界。
篇幅所限,以上仅摘录部分内容。
如需完整讲稿、完整视频,请加入知识星球
并搜索编号“A227”获取详细资料。
另在知识星球新增了一篇非公开资料,
《索驱动连续体机器人:建模与控制综述(编号S133)》