(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
全文约18,000 字,阅读约需 38分钟
OpenAI投资的机器人创业公司1X宣布他们研发的家用双足人形机器人原型NEO Beta正式问世。这款机器人不仅代表着人形机器人技术的重大进展,更预示着智能机器人即将走入普通家庭,开启人机共存的新纪元。
在一次难得的机会中,1X Technologies的创始人兼首席执行官Bernt Bornich接受了深度采访。这次对话不仅揭示了Bornich的个人背景和公司过去十年的发展历程,更展现了1X令人惊叹的未来规划。据Bornich透露,公司计划在2025年生产数千台Neo机器人,2026年扩大到数万台,2027年跃升至数十万台,到2028年更是要实现惊人的数百万台生产规模。这一雄心勃勃的目标背后,是1X对家庭机器人市场巨大潜力的坚定信念。
NEO Beta身高1.65米,体重30公斤,外形酷似成年人。它不仅能以每小时2.5英里的速度行走,还可以以每小时7.5英里的速度奔跑。这款机器人专为家务设计,能够承重20公斤,单次工作时间长达2到4小时。从做饭、端盘子到帮忙背包,NEO Beta几乎可以胜任各种家庭日常任务。然而,NEO Beta的与众不同之处不仅在于其出色的性能,更在于其独特的交互方式。它在工作时保持"静音",主要通过眼神交流和手势来与人类沟通,营造出一种安静而温馨的陪伴感。这种设计理念体现了1X公司对未来人机关系的深刻思考——机器人不应仅仅是冰冷的工具,而应成为家庭中温暖的一员。
视频时间轴
1:16 为什么是人形机器人?
8:40 规模的力量
18:35 让机器人进行实验
27:45 莫拉维克悖论
32:50 模型推理困难
40:40 人形生态系统
56:30 雇用谁你是就谁
1:00:00 相信你的直觉
1:05:50 2040
1:12:00 人生哲学
文稿整理
主持人: Bernt,对于那些还没有看过这期节目的观众,你能简单介绍一下1X Technologies正在做些什么吗?在我们开始之前,能否先为我们简单介绍一下自己?
嘉宾Bernt Bornich: 当然。1X的目标是通过将类人机器人引入家庭,解决人工智能领域一些尚未解决的关键挑战。我们的机器人可以执行各种任务,从叠衣服到建造摩天大楼,真正让它们对所有人都变得实用。
1、人形机器人未来巨大市场
主持人: 我觉得一个很大的问题是,为什么要选择人形机器人平台?类人机器人并不是你们的全新尝试,你们已经开发了Eve机器人,虽然没有腿但有轮子,除此之外它基本也是人形机器人。你们已经研发Neo很多年了,这并不是一个最近才做出的决定,而是经过深思熟虑的选择。你能解释一下为什么是人形机器人吗?
Bernt Bornich: 当然。对我个人来说,这是我一生的梦想。从小时候起,我就知道自己要做这件事。如果我们从大局出发思考技术的重大突破,无论是在交通领域还是计算领域,我们可以看到技术通常会经历一些周期。最开始,你会有一个非常专门化的系统,因为问题非常复杂。以计算机为例,早期的主机就是这样。但到某个节点,技术发展足够成熟,你可以制造出一个通用系统——就像计算机革命中的PC一样。这时你就能获得规模化效应,创造出庞大的生态系统,并实现广泛的应用。即便有时你可以用更简单的系统解决某些任务,通用系统的强大之处在于它能创造出完整的生态系统。如今,计算领域已经变得非常庞大,市场规模巨大,因此你可以开辟出一些专门化的领域,这些领域仍然很大,比如制造业或运输业,而这些专门化的系统依然更有效率,因为你在这些领域中仍然能获得规模化效应。
主持人: 听起来你们正试图将这一理念带入机器人领域,对吧?
Bernt Bornich: 没错。这正是机器人领域正在发生的事情。我们正从高度专业化的系统迈向通用系统,这样可以获得规模化效应和大规模的普及应用,构建生态系统。而我认为人形机器人是最终解决方案中最通用的平台。因为你需要一个系统能够在物理空间内执行所有你想要的操作,才能开始看到我们在数字领域中已经体验到的那种大规模效率提升。在自动化数字系统的帮助下,社会的效率得到了巨大的提升,但在物理领域这一切还未发生。我相信最终我们会回到最初的循环,我们将拥有数以亿计的机器人,执行各种任务。到那时,可能会有更多的专门化,因为我们的系统已经足够强大了。然后,也许我们会像《星球大战》一样,拥有不同类型的机器人执行各种任务。但人形机器人依然会占据很大一部分,因为它仍然是最通用的系统。还有一点非常重要的是,人类的知识是通过我们的身体体现出来的。如果你问一个大型语言模型如何打开果酱罐,它会告诉你用一只手抓住罐子,用另一只手拧开盖子。人类如何在物理世界中行动,是我们最研究透彻的事情之一。你去看YouTube上的视频,大多数视频都是关于人类的。很有趣的是,即便如此,大型模型仍然不太理解人类的行为及其运动方式。这是一个非常深奥的话题,我们可以稍后再深入讨论。
但我认为能够重复利用我们已有的知识非常有价值。而最后一点,不仅这个世界是为我们所设计的,我们还希望让世界对我们来说更加便利,对吧?我们想要创造适合我们生活的技术,而不是让我们去适应技术。我们只是想最大化自己的舒适度,享受更多乐趣,腾出时间去做我们真正想做的事情。
主持人: 你认为人形机器人平台是实现这一目标的最佳方式吗?因为AI通过具身认知理解世界,而这个桌子刚好就是我的手臂高度,这样的理解方式?
Bernt Bornich: 是的,还有知识的传递。我认为我们应该讨论的最后一点是我们如何教导系统,比如Neo,去完成各种任务。事实上,这个过程几乎是无限的。你戴上VR头显,可以通过机器人的眼睛看世界,你还能看到机器人的手,而这感觉就像是你自己的手。你的整个身体都映射到机器人的身体上。这样你就可以执行你想做的所有任务,通过这种方式,你可以创造非常强大的专家示范,我们的AI可以据此进行训练。如果没有一个像人类一样的形态,能像人类一样行动——不仅是关节的角度问题,它还需要具备相同的动力学,甚至在物理反应上也应与人类相似——那么你就不需要过多思考,只需像自己在做任务一样操作。如果机器人不是类人形的,比如带轮子的手推车装上机械臂,手上装了摄像头,它也许只能做有限的动作,无法像人类那样灵活,比如开门就会变得非常复杂。要让这样的机器人开门,反而增加了不必要的复杂性。这被称为“跨具身问题”。这样的复杂性确实不必要。我们希望我们的技术能融入到现有的空间中。我们可以继续讨论下去,因为这背后有许多原因值得探讨。但我认为,从进化的角度来看,最终我们胜出了,因为我们擅长用手完成各种任务,利用工具等等。所有这些都值得强调。
主持人: 我发现很多时候,尤其是那些从事硬件开发的机器人专家,他们对类人形机器人有一种负面的本能反应,因为他们意识到制造这样的机器人有多难。他们可能觉得这并不是解决问题的最有效方式,或者认为这只是因为从未成功过,所以不值得去做。你怎么看这个问题?即使需要很长时间才能达到那个点,但一旦成功,那些工程时间就可以在大规模生产时得到回报,对吗?
Bernt Bornich: 没错,100%正确。我认为他们的主要论点是,人形机器人系统的制造复杂性很高。你可以说,如果这个项目成功了,你的工程时间是值得的,但你能否让这个系统变得足够简单和高效,以至于能大规模生产,并且比专门化的系统更具成本效益?我认为我们在这条道路上走得相当明确,但确实需要从基本原则出发,重新审视问题,而不是一味增加复杂性,这往往是机器人开发中的常见问题。如果我们能够非常非常出色地制造类人机器人,我们也许能造出更便宜的机械臂,但我们不会生产那么多机械臂。那些机械臂不会成为你生活中的伙伴,帮助你处理各种事情。
规模无疑是最强大的推动力之一。我们在整个社会中都能看到这种现象,无论是消费产品的普及还是现代技术产品的应用,规模的力量是非常惊人的。你可以在非常复杂的系统中压低成本。但我认为,解决这个问题需要两方面的努力:不仅要考虑如何使系统尽可能简单,还要考虑如何大规模生产。
2、人形Neo是什么样
主持人: 在继续深入探讨简化、基本原则和制造问题之前,我想请你先为那些还没有看过主要集数的观众简单介绍一下Eve的背景,以及Neo是什么样的机器人?
Bernt Bornich: 当然可以。WX公司始于2015年,至今已经走过了九年,Eve基本上是我们第一代技术的成果。在这过程中,我们开发了一些非常强大的、独特类型的电机。事实上,Eve中的电机在扭矩和重量比方面仍然是市场上其他产品的两倍半以上。为了做到这一点,我们的制造技术与传统的电机设计和制造方式完全不同。用于制造这些电机的机器也完全不同。我们将所有这些技术整合到一个平台中,能够进行大规模部署,收集有效数据,总结经验教训,弄清楚如何让这一切真正运作起来,以及如何使制造过程顺利进行。对我来说,这就是Eve,这就是公司前六年的成果。而Neo则是基于相同技术的第二代产品。
每当你开始做一些全新的事情,尤其是一些前所未有的事情时,你还没有进入“边际收益递减”的阶段,进步的空间仍然很大。因此,第一代和第二代,甚至第三代产品之间会有巨大的提升。从Eve到Neo,我们在功率密度、能效、安全性等各项指标上都取得了巨大的飞跃。这也让我们能够从轮式平台转向拥有双足的类人平台,这个平台依然能够执行数小时的任务,完成各种有用的劳动,并能适应任何环境,同时还可以大规模制造,并整合我们所学到的所有经验。如果我们退一步思考,我们的系统通过一些非常强大的电机运作,这些电机能够拉动松弛的肌腱,这个设计灵感来源于肌肉结构,因此它能够实现我们在自然界中看到的那种优美动态,比如运动员奔跑或体操运动员做动作时展现出来的那种流畅运动。它的运动方式与我们通常想到的那种僵硬的机器人完全不同,我们称它为“机器人站立”的原因就在这里。
主持人: 能解释一下典型的谐波传动和你们开发的这些电机之间的区别吗?
Bernt Bornich: 机器人学的一个关键问题是,我们并不真正知道如何制造一个致动器系统。通常,致动器系统由电机、传动装置、电源电子设备和传感器组成。在人体中,致动器系统相当于肌肉和神经传感系统,用于驱动和控制肌肉。而我们无法制造出无需大比例传动装置的系统。无论是制造割草机还是机器人,你都会遇到这样的问题:电机可以产生大量的功率,可以快速旋转,但它无法产生足够的扭矩或力量。为了解决这个问题,你必须将其减速。在机器人中,通常采用100:1的减速比。换句话说,当我做这个动作时,我的关节实际上比我的手臂快100倍。这种方法非常有效,因为你通过减速装置获得了100倍的力量或扭矩,解决了问题。然而,挑战在于动能。任何系统的动能等于质量乘以速度的平方。如果我们以一辆汽车为例,汽车的速度加倍时,动能并不是两倍,而是四倍。如果速度增加四倍,动能将增加16倍。动能会随着速度的平方快速增长。
如果你将这个概念应用到旋转运动上,你会发现,电机和传动装置内部的质量也不是可以忽略不计的。它们的速度是原来的100倍,因此动能也会变成10,000倍。当你想象一个非常重的物体以极高的速度旋转时,它不可能立即停止。这种情况适用于机器人臂,当你用机器人臂执行任务时,它的内部运动非常快,你无法察觉。当机器人臂碰到某个物体时,它不可能立即停止。你可以通过一个简单的数学计算来分析这个问题。这只是动能的计算,你可以说这个系统有一定的动能。如果我们移除这个系统,并试图放一些重量在这里,要求它在相同的速度下具有相同的动能,通常你会发现机器人的手臂重量大概相当于30到60磅左右。因此,当你看到工厂里的机器人臂在移动时,即使它只是在移动一个5公斤或10磅的物体,你可以想象有一个60磅重的壶铃绑在机器人手臂的手腕上。这也是为什么工业机器人是如此危险,并且必须放置在笼子里的原因。
这种方法在工业领域非常有效。这个系统实际上有另一个非常美妙的特性,因为当初设计这个系统的人非常聪明,这些设计大多是在60年代完成的。当你有如此高的惯性或质量时,系统很难被扰动。比如说,如果你在移动,我试图阻止你,但你根本停不下来。这意味着系统中的各个部分,比如多个关节等,它们彼此不会相互干扰。这样你就可以一次控制一个关节,整个系统将非常稳定且易于控制。在当时,你没有足够的计算能力来同时控制所有关节,因此这种方法是工厂中工作的必要条件。你只需要校准好系统,知道什么时候机器人应该碰触某个物体,然后在该碰触时减速,再迅速移动。在传统机器人学中,我们称任何碰触到未预定的物体为“碰撞”,通常碰撞会导致一些损坏,这显然是不好的。如果你想想我们日常生活的方式,其实我们一直在碰撞——你刚刚还碰到自己的鼻子了,对吧?你迈出一步时,那就是与地面的碰撞。你永远不知道什么时候会发生碰撞,一切都不是预先计划好的,而你的传感器也不足以完全预知这一切。因此,在像家里或者仓库这样的非结构化环境中,你需要一个能够像人类一样与世界互动的系统。我们动作中的能量非常少,这也是自然界的做法——最小化移动所需的能量。这样你就能得到非常优雅的互动动态,比如说,即便我快速转身不小心撞到你,虽然有点尴尬,但你不会因此受伤。
这其实有点违反直觉,为什么机器人会如此危险?原因是我们没有真正意识到进化在这个问题上有多深入的研究。进化的核心问题之一就是如何最小化能量使用,这不仅对完成任务非常重要,对安全性同样关键。我们的身体之所以相对安全,就是因为我们与世界的碰撞不那么猛烈。这也意味着我们可以探索世界。如果你考虑这些系统如何在现实世界中学习,能够尝试各种事情而不损坏自己或环境是学习的关键组成部分。如今的人工智能系统大多是通过观察来学习的,我们基于人类的所有观察数据进行训练。而人类的学习则更多依赖于实验。我们做出一个动作,这个动作改变了世界的状态,然后我们观察,得出“哦,这个动作会导致那样的结果”的结论。我们的推理很大程度上就是来自于这种因果关系的观察。
主持人: 这确实非常有趣。那么,你们如何设计机器人,让它们能够进行实验并建立反馈循环呢?
Bernt Bornich: 首先,正如我们之前提到的,关键在于构建一个能量很小的系统,这样当机器人与世界互动时,能量交换非常少。这使得系统本质上变得柔软且安全。这意味着你可以让机器人花上八个小时反复尝试开门,而不会损坏门或机器人。它可以不断尝试,直到成功。我们确实会在这个过程中帮助机器人,比如通过VR模拟来教它如何开门,但这并不是完全基于视觉的。
主持人: 那你们的机器人可以感知触觉吗?
Bernt Bornich: 可以,机器人能够感知触觉。这也是为什么我们要用机器人而不是让人类戴着摄像头到处走动做任务的原因。机器人不仅能够感知发生了什么,它还知道自己的状态。它知道自己正在执行的动作,知道自己的状态,知道施加在它身上的力。同样,也知道反作用力,这些力施加在外部世界中。而这些信息在现有的数据集中是不存在的。我们发现,这些模式对理解世界的工作原理有着巨大的帮助。很明显,这将有助于学习物理学,因为你通过实验来探索物理世界的运作方式。但更有趣的是,思考如何通过这些物理行为来构建各种模型。比如,你走进浴室,问“马桶盖是打开还是关闭的?”这是一个经典的有趣例子。我们今天还拍了这个例子的视频。
因为这是一个边缘案例。通常情况下,像GPT-4这样的现代模型能够非常好地回答这个问题。不过这个问题很有趣,比如说马桶盖是打开还是关闭,GPT-4这样的模型在回答这个问题时经常50/50会失败。这种情况非常有趣,可以讨论为什么这一特定问题如此难解决。但重要的是,这种边缘案例非常多,如何让你的模型在现实中扎根,知道你得出的结论是否真的正确呢?比如说,如果你把马桶盖合上了,你知道它现在是合上的,因为你刚刚合上了。这就是一个反馈循环,这也是我认为非常有趣的一个点,尤其是在解决目前这些模型所面临的挑战时。当我们将这些多模态信息整合到系统中时,系统将对世界有更好的理解,进而能够更好地推理任何任务。
3、Eve和Neo两个人形机器人区别
主持人: 那么, Eve和Neo之间的主要区别是什么?显然,最大的区别就是Neo有双腿,而Eve则有一个很酷的滚动底盘。除此之外还有什么其他区别?为什么需要一个全新的机器人呢?
Bernt Bornich: 我认为Eve和Neo之间最大的区别,或者说不太容易看到的一个特点,是整个系统的被动安全性设计。我的意思是,我们希望将机器人对外界的冲击能量控制在一个不会导致严重伤害的阈值以下,即使一切都出错了。比如说,机器人在跑动时不小心踢到了你,或者机器人摔倒了并砸在你身上。我们会尽一切努力防止这种情况发生,我们也在机器人基础模型的安全性方面投入了大量工作。但如果我们想要在地球上部署数十亿台机器人,它们在硬件层面上必须尽可能安全,因为事情总是会出错。我们不需要把机器人做成那种笨重的工业危险机器,也不必走到像自动驾驶汽车那样的死胡同。我们可以尽可能让它们安全。为了做到这一点,首先你需要让机器人非常轻便。Neo的重量只有66磅,但它可以举起150磅的物体。这相当于一个运动员的表现。而且机器人没有任何夹手点,你的手指无论放在哪都不会被夹伤。此外,机器人在移动时的能量非常低,正如我们之前讨论过的,所以即使它在跑动时不小心撞到你,也不会造成太大伤害。
整个机器人实际上是软的。如果你试图压缩它,它会像你一样被压缩。有趣的是,我们可以利用一些内部技术来支撑被压缩的结构。这种组合使我们能够制造出一个比任何其他系统都更加安全的机器人。我认为,安全性是这个市场的最大进入门槛之一。如果你想把机器人放在人群中使用,这就必须非常安全;如果你只是想把它放在工厂里的笼子中,那就不是什么大问题,但你不会从中学到太多东西。现在我们有很多数据表明,当你执行某个任务50次左右后,性能就不会有太大的提升了。这是基于大规模的数据,因为我们的机器人基础模型现在已经非常庞大了。当然,一开始你对任何任务都没有直觉,因此你确实会看到性能提升。但一旦达到一定规模的数据后,你可以通过大约50个样本学会一个新任务,并且表现相当不错。如果你平衡好数据集,5,000次训练会让你表现得更好,但50次样本学习的表现已经接近极限了。你希望能够收集到每个世界上的每一个地方、每种文化背景、不同声音和各种混乱环境中的数据。这种多样性才是我们真正获得智能的关键。这对人类也是如此。人们需要经历很多多样化的体验才能真正擅长某件事。无论是推进科学,还是成为世界上最优秀的物理学家,了解其他学科的知识对你都有很大的帮助。即使你只是想成为世界上最优秀的网球运动员,参与其他运动对你也会有很大的帮助。这对机器人并没有什么不同,对于语言模型也是如此。最好的模型是那些在训练数据集中拥有最多样化数据的模型。现在,大家已经广泛知道这一点。如果你去读Meta最新的关于Llama 3.1的论文,它接近当前的最先进水平。它们指出,Llama 1、2和3之间在架构上几乎没有区别,只不过它们的训练时间稍长了一些。
计算成本正在下降,但最大的区别在于他们拥有更为多样化的数据集。最关键的就是创建最为多样化的数据集,因为性能和智能都来源于此。奇怪的是,很多人认为这对具身智能体和机器人并不适用。他们以为只要从一个非常狭窄的领域开始,比如一个工业用例,或者每天只执行一个动作,那就可以学会了。但事实并非如此,你不会学到太多东西。你必须置身于现实世界中,面对各种可能发生的情况,通过这种多样性来创建一个真正智能的系统。这样一来,你就可以应对其他所有问题空间了,可能只需要50个样本就能解决问题。这正是人类所做的,对吧?我向你展示如何做一件任务,如果这任务相对简单,我教你一次后,你就能掌握,因为你已经有了丰富的知识积累。我认为,通向真正智能的安卓系统,并让它们在地球上执行各种体力劳动的第一步,是通过家庭数据的多样性,然后你才能扩展到制造业、服务业等各种场景。
主持人: 你是否记得那个关于“如果对人类来说容易的事情对机器人来说很难,而对机器人来说容易的事情对人类来说很难”的原理叫什么?是“莫拉维克的悖论”吗?
Bernt Bornich: 是的,莫拉维克的悖论。
主持人: 你对这个原理的理解如何?你在这八九年间构建机器人的过程中,它是否适用?有时它是否成立?在哪些情况下不成立?
Bernt Bornich: 关于Moravec悖论,确实有一些道理。我们已经经历过一些事情,比如创造力比我们想象的要简单,语言等方面也是如此。但当涉及到更高层次的推理时,我并不认为我们在这方面已经解决了问题。因此,我并不完全同意这是一个有力的证明。不过,很多事情确实比我们想象的要容易。同样地,有些任务我们认为非常难,但实际上并不那么难,反之亦然。所以我认为这是一个过于简单化的说法。我们有时发现,某些事情的解决比我们预期的要快,也许更多的问题并不是“莫拉维克的悖论”导致的,而是因为我们过去从未拥有过大规模的机器人数据。然而,这其中确实有一些道理。我觉得有趣的是,这些东西其实是紧密相连的。你若想在推理方面表现出色,操纵能力也是非常重要的。虽然二者看似无关,但如果你擅长操纵事物,你就能够进行大量的实验,而实验和观察则是推理能力的基础。
主持人: 所以这是一个简化的说法,但其中确实有些道理,对吗?
Bernt Bornich: 是的,确实如此。但我还有一个有趣的哲学实验,你听说过“超级科学家玛丽”吗?
主持人: 没有,能讲讲吗?
Bernt Bornich: 可能我会说得不太准确,但我尽量简单说明一下。玛丽生活在一个只有黑白屏幕的盒子里,她是超级科学家,知道关于光和颜色的一切知识。她知道光如何撞击物体,如何进入大脑,如何激发每个神经元,她了解关于光的所有知识。但有一天,盒子的门打开了,玛丽走了出来。那么问题是:她学到了什么新东西吗?这个实验与我们讨论的机器人有相似之处。这个盒子只能观察,却不能与外界互动。我们的直觉会告诉我们,玛丽肯定学到了什么,因为她以前从未真正体验过世界。这个问题非常难,关于这个实验已经写了好几本书。她是否学到了什么新东西?我们不能确定。
主持人: 但我认为,即使你知道关于颜色的所有知识,当你进入三维空间、物体在时间中移动时,情况就会完全不同了。你可以将这个隐喻带入机器人领域,讨论它如何理解世界。
Bernt Bornich: 我的观点是,玛丽拥有所有的信息,根据第一原理,她理论上应该没有学到任何新东西。如果她确实学到了新东西,那我们就得承认,世界的理解是某种更高层次的存在,而不仅仅是信息的堆积。
主持人: 我明白你想表达的意思。
Bernt Bornich: 是的,你可以将这个问题引向更深的“上帝视角”讨论,但我的观点是,这种方式解决问题非常困难。我宁愿走出那个盒子去亲自体验世界。我觉得这里重要的一点是,仅通过非常有限的模态被动观察世界来让AI学习是极其低效的。比如,要通过文本理解颜色,所需的信息量相比通过图片甚至视频来理解颜色是巨大的。虽然大型语言模型仅通过纯文本训练,对颜色的理解已经相当不错,这确实是一个很好的例子,但这是一种非常低效的学习方式。作为一名工程师,我会问,为什么要用这种方式?答案通常是,因为我们没有足够的数据,所以不得不这样做。但实际上,我们是可以获得这些数据的。通过这种方式,我们可以在朝着更有用的智能方向迈出一些重要的步伐。
4、当前大模型的推理能力
主持人: 你刚才提到,你认为我们还没有解决高层次的推理问题,也没有完全弄清楚它。你能详细谈谈你的看法吗?
Bernt Bornich: 我认为当前的所有AI系统在大多数推理任务上都完全失败了。推理任务。如果你真的需要推理某个问题并得出解决方案,这与仅仅总结我们在训练过程中提供的观察结果是非常不同的。你会发现,有一些“生命的迹象”表明推理能力似乎存在一些苗头。其实在图像模型中更容易展示这一点,比如DALL·E生成“牛油果椅子”这种概念,虽然数据集中根本没有牛油果椅子,但你可以推断出牛油果和椅子的组合。这是一种相对有限的推理,但仍然是一种推理。
推理能力通常是通过对世界的深刻理解而涌现出来的。通过实验和观察可以做到这一点,不一定要在物理世界中完成,尽管物理世界要丰富得多。举个例子,DeepMind的AlphaZero论文非常有趣,因为它结合了探索世界、观察行为结果和在该空间内进行搜索的能力。在现实世界中做到这一点非常让人兴奋。我们还不知道这具体会带来什么结果,但早期的成果非常有前景,我相信这能够创造出很大的价值。
主持人: 那么1X是如何看待智能和AI的呢?你们的模型如何处理不同的传感器数据、图像数据和反馈数据?你们的做法是什么?
Bernt Bornich: 简短的回答是,我们正在做所有这些工作。这些模态都是有用的。我们会用所有可用的文本进行训练,也会用所有可用的图像和视频进行训练,这让我们能够获得非常基础的理解,大致达到了现代大型语言模型的水平。此外,我们还会用所有的机器人数据进行训练,包括模拟数据。这一切都能帮助我们实现最终目标,即让智能更好地推理现实世界,具备良好的空间理解能力。这是目前的大问题之一,对吧?例如,你问现代的视觉语言模型(VLM):“如果我向前走一米,我会碰到什么吗?” 它们的回答通常是错误的,因为它们对空间的理解非常糟糕。它们从未经历过这样的动作。VM是视觉语言模型,基本上是一个不仅能理解语言,还能思考图像的模型。如今,许多VM也能处理视频,有时甚至可以处理音频。你可以看到一个非常明显的趋势:随着添加的模态越来越多,系统会变得更智能。这一切都关乎于创建一个数据引擎,让学习没有限制。我真的相信,未来的科学将会是由数十亿台机器人在全球各地的实验室中运行实验,通过这种方式推动我们对宇宙的理解。科学发现很难离开实验的支持,而实验正是我们理解世界的关键。
主持人: 很多人谈到激励他们不断深入研究的动力,都是为了更好地理解宇宙。你经常会听到人们讨论太空探索,他们希望通过探索太空来更好地理解宇宙。我并不反对这种看法,我认为我们确实应该进入太空。你提到通过数据和计算来解决问题,这与我们现在的大多数大型模型的训练方式类似。能不能具体谈谈你们如何融合这些不同的数据?比如,你们提到训练合成数据、传感器数据等,这些是如何融合在一起的呢?
Bernt Bornich: 简单的回答是,可以参考《苦涩的教训》这篇文章,强烈推荐大家去读一下。简而言之,任何你试图通过聪明的设计植入系统的额外智能,最终都会败给更多的计算能力。所有的突破都来自于数据和搜索的扩展。我们正在研究如何设计更好的架构,以便能够消化这些多模态数据,但我并不认为这才是决定性胜利的地方。当我们谈到大规模模型的学习时,好的架构和非常好的架构之间的差别并不大,真正的区别在于数据。数据的多样性和丰富性才是决定性因素。数据中的模态越多,包括你对世界的改变有多大,这些信息越丰富,你的系统推理能力就越强。在未来,可能不是现在,但未来会有大量机器人在没有任务时进行自我训练。它们会不断练习它们不擅长的任务,通过不同角度的数据学习来深入理解问题。所以要更具体地回答你的问题,我们和大多数训练大模型的公司一样,使用大型Transformer架构,将所有的数据以token的形式输入模型。文本的token化现在已经非常成熟,图像、视频的token化也越来越普遍,音频也开始逐渐进入这个领域。
5、人形机器人商业化
主持人: 你之前提到人形机器人是机器人生态系统的终极形态。你能不能详细描述一下这个生态系统的理想状态是什么样的?这是否意味着它会对开发者开放?或者机器人是否会像应用程序一样?
Bernt Bornich: 在理想的世界里,作为消费者,你能够非常轻松地教会机器人如何执行任务。这将打开一个全新的生态系统,大家可以分享各种技能和经验。我家里有一台Eve机器人,因为我们需要进行测试,同时这也很有趣。
主持人: 你真的把Eve带回家了吗?
Bernt Bornich: 是的,我有一台Eve机器人在家,马上也会收到Neo版本,真是令人期待。
主持人: 太酷了!你觉得机器人在家里的哪些功能最有用?
Bernt Bornich: 有很多出乎意料的用途。比如,当我不在家时,只要带上头显,我就可以“回到家”。简单的事情,比如在我去度假小屋时,可以远程喂猫,或者接收门口的包裹。
主持人: 猫对Eve的反应如何?有没有被吓到?
Bernt Bornich: 一开始没有什么特别的反应,因为猫已经习惯了。但猫确实没有表现出特别大的情感,比如蹭机器人或发出咕噜声。但孩子们非常喜欢机器人,尤其是Eve这个版本,因为它比较大,我们还要避免孩子们过于靠近机器人,他们太喜欢它了。
主持人: 显然,机器人进入家庭的一个关键问题就是价格的可承受性。觉得传统观念是,高级类人机器人绝不可能比一辆法拉利便宜。然而,你们的机器人价格并不高,而且未来还会越来越便宜。我很好奇,你们是如何做到这一点的?能不能带我回顾一下这个降低成本的过程?
Bernt Bornich: 这是一个非常复杂的过程。首先,任何你想要设计的产品,都不能在后期再去考虑成本问题。成本控制必须从第一天就开始。设计之初,你就得考虑如何让它尽可能易于制造,这也会引导你在技术上的选择。有很多简单的“第一性原理”思考,这在现实世界中并不容易,因为你会遇到各种问题,但你必须坚持下去,保持耐心。从第一天起,你就要考虑需要多少材料。如果我能制造一个非常轻巧、有效的机器人,它的重量只有竞争对手的一半,那么我花在材料上的钱也会少一半。如果我能让我的电机和驱动系统变得非常轻,我可以节省很多成本,因为铜和钕磁铁是机器人里最昂贵的材料之一。因为这些都是地球上稀有的金属,价格非常高。所以你要尽量减少使用这些材料的数量。另一个需要考虑的是如何设计一个对制造公差要求不高的系统。你需要确保系统即使不那么精确,也能通过校准来正常运行。我们采用的肌腱驱动系统具有非常优雅的特性,它并不需要特别精确。而像谐波传动齿轮这样的系统则需要极其精密的加工,使用特殊的合金来打包大量的齿轮,这会变得非常昂贵。如果你想让机器人价格可负担,就必须回过头来重新思考,能否用其他方式来解决这个问题。
我认为,最关键的是你必须掌控自己的命运,完全垂直整合生产链,掌控供应链和制造过程。你还需要自己制造机器设备,这样不仅可以节省成本,更重要的是,你可以把工程设计和制造流程紧密结合起来。当某个设计难以实现时,制造人员可以直接告诉设计师:“你这样设计行不通。”或者供应链负责人可以说:“你知道这个材料有多贵吗?我们应该找到其他解决方案。”这种跨领域的协作正是你外包制造时会失去的优势。
主持人: 你们已经在挪威建造了一家制造工厂,我看过一些相关的影像,工厂虽然不大,但能够从原材料输入到机器人产出,令人印象深刻。接下来你们计划大规模生产,可以分享一下你们的产量目标和大致时间表吗?
Bernt Bornich: 当然可以。我们内部有一个已经坚持了一段时间的口号,那就是每年将产量扩大10倍。所以我们最初制造了10台Eve,然后接近100台,现在我们要生产数千台Neo。2025年,我们将生产数千台Neo,2026年生产数万台,2027年生产数十万台,2028年生产数百万台。你可以自己计算,这个目标很难实现。到目前为止,我们仍然在计划轨道上,但过程非常痛苦。这并不容易,但我们也不是第一次面对这种挑战。以Eve为例,我们的产量峰值是每月10到20台,而现在我们计划将这个数字扩大10倍。这对整个组织来说是巨大的挑战。你需要建立一个适应大规模制造的体系,包括供应链、材料管理、流程以及追溯系统等。这一切都是一步一步来的。我觉得很多人常犯的一个错误是以为可以直接从生产一台机器人到生产一百万台。显然这是不可能的,对吧?你必须一步一步来,虽然你可以加快速度,但步骤是不能跳过的。我们采取了一种相对谦逊的方式。我认为需求会远远超过供给,但你仍然需要按部就班地进行。
现在我们已经在新的生产线上生产大量的Neo机器人了,我对明年的目标非常有信心。2026年,当你从数万台扩大到数十万、数百万台时,会发生某种“神奇”的变化。很多公司在这一阶段会失败,这个过程非常痛苦。你需要确保团队中有最好的人才,有过相关经验的人,并且整个组织对产品有深入的理解。如果出现任何问题,你能够迅速进行重新设计并修复问题。这也是为什么我们要垂直整合、掌控自己的供应链,这样如果出现问题,我们就有能力解决,而不是去责怪别人。虽然这会带来大量工作,但这是必须的。
主持人: 我对你们每年实现10倍增长的计划非常期待!通常小公司在成长为大公司后,会在沟通效率和人员质量上遇到挑战。你们是如何规划在扩大规模时保持良好沟通的?你有没有一些应对团队沟通的思路或方法?
Bernt Bornich: 首先,我完全同意,随着规模的扩大,效率肯定会下降。首先要意识到这一点,并坦然接受。核心研发是不具备可扩展性的,所以我们要保持团队尽可能小。我常常用足球来做比喻,你场上最多能有11名球员,再多就会陷入混乱。因此,确保这11个人是世界上最优秀的,然后构建一个体系,让他们专心踢球。从组织层面来说,像HR这样的部门存在的目的不是为了管你打卡或完成一些琐事,而是为了帮助你专注于自己的工作,最大化你的影响力。至于沟通,确实很难做得很好,所以我们要赋予团队更多自主权,招募一些非常聪明且使命驱动的人。大家都在同一条船上,没有自负和政治斗争。我们正在构建类人机器人,将它们送到家庭中,解决实际问题,对人类产生巨大影响,这是我们最关心的事情,其他都不重要。
我们的幸运之处在于,我们的目标非常明确。很多公司还在探索做什么,而我们非常使命导向。这种使命感应该反映在公司的结构中,保持尽量扁平的层级,虽然这会带来一些混乱,但我们要接受这种混乱。我将流程视为“必要的恶”,如果没有流程,事情无法完成,但你也不想让流程过多,阻碍效率。与其让公司90%的工作有用但大家都束手束脚,不如让50%的工作有用,并让每个人都能全力以赴。你需要非常严格地控制,不能因为恐惧而做出决策。如果你想完全掌控一切,只会拖慢进度。随着公司的成长,人员的角色会发生变化,沟通能力会变得更加重要。但我仍然认为,保持团队尽可能小,不要被传统的商业建议所左右,比如流程、层级、汇报等。这些东西在某种程度上是需要的,但它们不应该成为目的本身,只有在绝对必要的情况下才存在,比如为了完成任务或满足某些法规要求。大多数时候,这些东西只会成为阻碍。尤其是在制造领域,情况更加复杂。你刚才提到的是你们如何运行研发部门,而制造部门更像是军队一样的纪律严明,每个人都必须知道自己该做什么。而将这两者结合到同一个组织中,我认为这是最大的挑战,也是很多公司失败的原因之一。如果你回想一下,这样做得不错的公司很少,至少在西方,我只能想到一个成功的例子,那就是特斯拉。他们不仅成功扩大了制造规模,而且在组织内部保持了一种精益和敏捷的心态。不过,他们确实将研发和制造部门分开处理,研发是小规模的精英团队,而制造则在全国各地大规模展开。
他们在早期确实也有很多研发和制造的合作。比如他们设计的新车,工程师通常会与制造工厂的建设同时进行,第一条生产线也是这样构建的。之后再扩大规模时,情况就不同了,他们会将这一模式复制到全球。
6、公司团队规模
主持人: 的确如此,不过你们现在的规模还没有特斯拉那么大,你们的团队规模是多少?
Bernt Bornich: 我们现在有150人,已经开始遇到这些问题了。你刚才提到招聘,这是非常重要的一点。直到几周前,我还亲自面试了每一个被录用的人,但到某个时刻,我意识到这减缓了整个招聘流程。我必须承认,招聘对我们非常重要,因为我们需要学习如何招聘,学习应该招聘什么样的人,并通过这个过程来设定公司的文化。
主持人: 接下来这个问题有点特别,但我很喜欢问创始人这个问题,因为我觉得很有趣。你能描述一下你觉得自己大脑的工作方式吗?
Bernt Bornich: 如果我知道答案,我可能已经解决了机器人问题了(笑)。我觉得我是一个非常视觉化的思考者,我擅长开始一个项目,但不擅长完成它,甚至到了极端的程度。你可以问我妻子,我几乎什么都能开始,但从来不会把事情做完。不过,作为创始人,我意识到了这个问题,所以我雇佣了能够完成工作的团队,并围绕他们构建组织。
主持人: 看起来你的公司现在似乎能够很好地完成任务了,对吧?
Bernt Bornich: 是的,因为我知道自己的弱点,所以我雇佣了能够弥补这些弱点的人。我尽量强迫自己保持专注,比如我们即将发布Neo,而我却已经在考虑Neo 2了,但我必须告诉自己:“不,现在不能考虑这个,我们要先完成Neo的发布。”
主持人: 你如何在改变自己以适应公司的需求和雇佣适合自己的人之间找到平衡呢?
Bernt Bornich: 我倾向于选择后者。我认为作为创始人,随着公司的成长,你确实需要自我提升,但我不能改变自己。所以,我会雇佣适合我的人。我学到的最多的事情是如何管理人,如何在保持公平和严格的同时,也能表现出同理心和友善。这对我这样的工程师来说并不容易,但如果你想打造一家公司,让大家高效并取得成功,你必须学会如何管理人。
主持人: 你们的公司文化中有一个非常有趣的价值观——“友善”,这让我感到好奇。你们什么时候决定将“友善”作为公司价值观之一的?为什么做出这个决定?
Bernt Bornich: 我们认为,在一个以高强度和创新为核心的公司中,保持友善非常重要。虽然在高压环境中,有时你会觉得只要完成工作,友善不是必须的,但我们相信两者可以兼得。我们有明确的使命感,我们正在构建人形机器人,并将它们带入家庭,这对人类的未来有巨大的影响。因此,我们需要创造一个合作、友善的环境,确保每个人都为同一个目标努力。我觉得文化是因为我的信念以及我们集体的信念而形成的。我们期望员工非常努力工作,对吧?你不可能不付出努力就赢得奥运会的金牌。我们也期望员工非常聪明。如果你能来我们这里工作,那是因为你是最优秀的人之一。如果你打算在这里全力以赴地工作,作为世界上最顶尖的人之一,那么你最好也要友善。如果你不友善,这一切就行不通。毕竟,你要在一个地方花费那么多时间,必须得有一些乐趣,这样才更高效。
这就是为什么我认为我们的文化现在是正确的。至于我们是如何具体提出这些价值观的,这其实要简单得多、也有趣得多。我们公司有一些最真实的核心价值观,因为这些价值观并不是来自某个会议室里聘请的咨询顾问,而是某个深夜派对上我们的一位早期员工提出来的。他说:“这就是我们的样子。”于是我们有了三个核心价值观:我们聪明,我们非常努力工作,并且我们友善。这些听起来很真实,大家都同意:“对,这就是我们。”你能想象如果我们说“我们不友善”会怎么样吗?这些并不是从某个企业顾问的脑子里想出来的东西,感觉不像是那种被硬性规定的公司价值观,而是自然而然形成的,对吧?这才是核心价值观应有的样子。我们决定保持这种文化,因为我认为这是一种最有效率的文化。
7、创业公司管理模式
主持人: 我为此感到敬佩。我觉得在那些做“硬核”工作的人当中,很多人并不认为可以兼顾效率和友善,他们可能认为在做艰难的事情时,“做该做的事”比“保持友善”更重要。但我认为,如果能两者兼顾,何乐而不为?我很好奇,你有什么特别的信念或观点是你认为其他人很少持有的?
Bernt Bornich: 我觉得是关于我们身体为什么会像现在这样运作的背后原因。这是一个非常深的“兔子洞”,每一个细微的细节都有其背后的原因。我对人体运作的理解比大多数人要好一些,从物理的第一性原理出发,我能理解我们是如何与世界互动的,以及这如何影响我们学习的方式。
主持人: 你提到的这个生物力学观点很有趣。我认识很多机器人专家,他们会嘲笑如今还在使用肌腱驱动系统的人,认为这种方式已经过时了,尤其是在80、90年代很流行,但现在已经没人用了。他们可能会说:“工业机器人不使用这种方式,所以这已经没有用了。”但你似乎不关心这些流行趋势,而是基于第一性原理找到最好的系统来构建。我很好奇,你是如何在机器人学的背景下理解人体运作的?
Bernt Bornich: 我认为很多创始人和公司失败的原因之一是,他们在长期的实践中逐渐相信自己是错的。如果你花了一辈子思考一个问题,并且有直觉觉得某种方法是对的,然后你开始去做,每个人都会告诉你:“你疯了吧,这行不通的。有人已经试过了,为什么你还要做?”然后,随着几年过去,每天都有声音告诉你:“你显然是错的。”很多人会因此放弃,但不要放弃。所有重大的创新都源自坚强的信念和毅力。我们花了六年的时间,从“我们觉得这能行”到“这真的能可靠地工作”。以肌腱驱动系统为例,有很多人会说它有很多无法解决的问题,比如耐久性、可靠性、坚固性和可制造性。但这些问题都是可以解决的,只不过无法在三个月的时间框架内解决。我可以列出很多公司,即使在机器人领域,它们一开始的直觉是正确的,但它们改变了方向,做了一些平庸的东西,听从了别人的意见,最终也没有比其他公司做得更好,最后消亡。如果它们坚持自己的直觉,专注于那个问题,或许结果会不一样。如果你为一个问题投入了你的全部,那么你的直觉很可能是对的。我宁愿错得彻底,完全失败,也不愿做那些“平淡无奇”的事情。
主持人: 如果你对某件事有坚定的信念,并基于此创办了公司,那就坚持到底,直到生命的尽头。我很喜欢这个观点。令人有趣的是,尽管有那么多创新者和科学家证明了这一点,比如爱迪生、马斯克等等,但我们还是很难记住并真正内化这一点。我觉得这很有趣。
Bernt Bornich: 是的,因为这真的很痛苦。每天都有很多人告诉你,“这不行”。
主持人: 我现在正经历这种情况,我在创办公司时,一位员工曾告诉我:“这不现实,我们应该缩减规模。”当时我觉得他说得有道理,但一周后我又意识到:“不,他完全错了!”虽然这听起来很疯狂,但我相信我们可以做到。所以我能理解这种感受。在谈到1X时,你希望别人更多地问你什么问题?
Bernt Bornich: 我希望人们更多地问我:“你觉得2040年会是什么样子?”大家总是关心接下来两年、三年、五年会发生什么,我们可以讨论AI是否会遇到瓶颈,制造业的扩展会如何进行,但如果我们跳过这些,问2040年会是什么样子呢?我们常常低估技术的长期影响。
主持人: 说得对,我们总是低估技术在长期中的发展。
Bernt Bornich: 首先,我非常高兴自己能活在这个时代,感到非常幸运。我们正处在人类历史上一个非常特殊的时间窗口,我们有机会参与创造人工生命。这简直是不可思议的。
主持人: 是的,确实如此。不仅如此,我们还正好处在一个探索太空的时代,同时我们也在构建超强的计算机,不仅仅是AI。能活在这个时代真是太好了!
Bernt Bornich: 到了2040年,我认为人类社会将完全不同。我们将解决能源问题,能够获取几乎无限的能源。我们将能够可持续地生产出无限的产品和服务,人人都能拥有自己想要的物质财富。这将比农业革命带来的影响还要巨大。我相信,这将创造一个美丽的世界。虽然很多科幻作品都描绘了反乌托邦的未来,但我不认为未来会是那样。我们将构建一个更美好的未来,在这个世界里,我们可以真正关心什么让我们成为人类,这将是非常有趣的。
8、科幻作品与未来
主持人: 反乌托邦的科幻小说让我很烦恼,很多故事都是那样的设定。你最喜欢的科幻作品是什么?
Bernt Bornich: 我最喜欢的还是《仿生人会梦见电子羊吗?》,也就是《银翼杀手》的原著,菲利普·K·迪克的作品。
主持人: 为什么这本书对你来说特别重要?
Bernt Bornich:它在我心中有特殊的位置,我从小就接触这本书。我大概看了《银翼杀手》500次,深深地影响了我所做的一切。想到这本书是在60年代写的,真是不可思议,它充满了远见。这个故事将人性与我们如何将仿生人融入社会的议题联系起来。这是个令人惊叹的故事,我很激动能够参与到探索这些问题的工作中,并且希望能比《银翼杀手》中的世界做得更好。
主持人: 但我认为我们可以做得更好,应该让更多的人关心建设未来,并为此感到兴奋,对吧?
Bernt Bornich: 当然,嗯,我感觉这个问题有点简单,虽然我们可以深入探讨,但是的,毫无疑问,我们应该让更多的人关心。我认为我们应该让人们关心一切。所有美好事物的根源就是人们的关心。如果人们在乎,事情通常会进展得很好。我觉得你引发了我的思考,我认为今天社会上最大的一个问题就是,人们缺乏目标。没有目标,你怎么可能快乐呢?如果一切都只是关于“我怎么能做得更少却得到更多”,你不会拥有快乐的生活。你需要有一个目标。
主持人: 那你认为我们为什么失去了目标感?
Bernt Bornich: 这是个很好的问题。我不认为我们完全失去了目标感,但它确实变得模糊了。我觉得当事情非常艰难时,目标感就变得非常清晰。如果你处于生存的危机中,你就有很强的目标感,比如我要保护我的家人和朋友,这就给了你目标感。当然,我们并不想回到那个时代,我们希望过上尽可能舒适的生活。但在某个时候,我们可能走得太远,过度强调个人主义,过度崇拜“自我”和“个体”。我认为是这样。很多目标感其实来自于社区和集体。如果你只想着自己,就很难找到真正的幸福和目标感。你可以找到短暂的快乐,但无法找到持久的幸福和目标感。目标感是通过改善某些事物而获得的,无论是为你的妻子、孩子、朋友,还是为社会、国家、甚至世界做出贡献。这些层次没有对错之分,但我认为,确保你的人生产生积极的影响,会让你感到更加幸福。我们应该更加努力,确保我们的行动是有意义的。
主持人: 最后一个问题,我也很喜欢问创始人们这个问题。你的当前人生哲学是什么?
Bernt Bornich: 我还没有真正定义过这个问题,这是个非常深奥的问题。可能有点老套,但我会说“做你觉得对的事”。这并不是说追求当下的奖励,而是我对社会规则并不在意。我喜欢研究类人机器人,我有妻子和两个孩子,我的朋友也住在我们家里,还有另一个朋友偶尔也会住在我们这里。我们正在建一座新房子,会和很多朋友一起住,尽管是我和家人一起生活,但这真的会更有趣。所以,不要让任何人告诉你该做什么,只要你不伤害别人,就去做你觉得能带来最佳生活质量的事情。生活会变得更加有趣。
喜欢这篇文章吗?别忘了点赞、收藏、转发支持一下!期待在评论区听到你的看法!
往期回顾
1、[采访Figure RoboticsCEO:预测世界将有100亿个人形机器人,每个人都会拥有人形机器人,劳动成为可选项]
2、[AI浪潮席卷全球, 微软首席科学官 Eric Horvitz世界科学大会分享使用AI独家心得,呼吁每个人积极拥抱机遇]
3、[人与机器的智慧对话 - 《自私的基因》作者理查德·道金斯与 "AI 版理查德"就基因选择和脑机接口展开思维碰撞]
我们旨在将先进科技与创新想法完美融合!
想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮
告别昂贵服务和缺人烦恼,再见漫长交付周期
无限创意,分分钟生成专业级产品
感受 AI 带来的全新工作体验!
欢迎各大品牌方、媒体、企业和个人等
请联系负责人微信:Milo-1101
--END--
未经许可不得转载,务必保留公众号原文链接和公众号按钮