一万字，读懂具身智能的技术趋势、产业应用与未来走向

学术科技 2024-07-31 17:36 北京

为深入探讨AI时代的人机关系，引领社会共同思考人机共生时代的经济发展机遇与社会应对策略，腾讯研究院联合前海国际事务研究院、青腾、香港科技园公司等机构举办 “AI时代的人机关系展望”论坛，这也是“人工智能+社会发展系列高端研讨会”的第二期。

论坛上第一个圆桌论坛四位嘉宾重点围绕具身智能的技术演进和人机关系走向这一话题，从技术趋势、产业应用、人机关系走向等多个维度展开了讨论，以下是圆桌讨论实录。

讨论嘉宾：

司晓 腾讯集团副总裁，腾讯研究院院长（主持人）

孙富春 中国人工智能学会副理事长、清华大学学术委员会委员

张正友 腾讯首席科学家、Robotics X实验室主任

张巍 逐际动力创始人

圆桌讨论实录

司晓：感谢三位嘉宾。刚才富春老师和正友老师进行了非常详细的分享，相信对我们接下来更好吸收圆桌环节的知识是有巨大帮助的，因为很多人只知道机器人这个概念，但是对于机器人涉及到这么复杂的感知和这么复杂的触觉，除了视觉之外应该先有一个基本的掌握。我想结合当前的热点问题请教几位专家，正如刚才正友老师提到的，很多人把SYSTEM1（系统一）和SYSTEM2（系统二）比喻为机器人的大脑和小脑。如果没有当前的大模型，具身智能的发展是否难以实现实用化？

孙富春：问得非常好。具身智能未来的发展必然要与大模型相结合，主要有以下几点原因：第一，具身智能的发展需要大模型强大的学习和适应能力，能够处理复杂、多样的数据，模拟和预测复杂的环境变化；第二，大模型，即便是自然语言大模型，在任务规划方面具有优势；第三，大模型可以利用大量的知识和数据来解决刚才正友老师提到的十个挑战中的许多问题，比如利用大模型的多模态整合能力提高具身智能的感知能力。

另一方面，我们也看到大模型的重要性在于，利用其认知能力来增强具身智能中的外感知形成的内体作用，体现在以机器人为代表的智能体的认知能力上，例如知识的利用能力。需要注意的是，正友老师提到未来的AGI需要通过具身来实现——一个重要的问题是知识从哪里来？实际上，有很多著作讨论了这个问题。我看到一本书《embodiments of mind》讨论了人的认知、心智和身体之间的关系，它们是否是生命进程的两个不同侧面。最后的结论是认知来自于身体和物理世界的交互过程。所以大模型也离不开具身智能，只有通过具身才能实现知识的不断迭代和生长，实现创造。谢谢。

张正友：大模型肯定是需要的，因为它至少需要像文科生一样能够理解问题。然而，是否必须沿着当前大模型的发展路径，我对此持怀疑态度。

首先，我认为大模型应对的用户和具身智能应对的用户是非常不同的。像ChatGPT这样的模型希望能够应对来自全世界不同国家、不同人种、不同语言、不同文化的人提出的问题。在这种情况下，它需要能够理解并回答涉及人类几千年文明知识的问题。无论是中国人提出的问题，还是非洲或北欧的用户提出的问题，它都应该能够回答。这是目前大模型希望解决的问题。

然而，具身智能在部署到一个具体环境中时，它面对的是相对狭小的空间和特定的用户需求。它需要完成的是在这个小环境中，例如一个建筑物内，人们要求它完成的任务。根据物理规则，一个具身智能不可能在短时间内从深圳移动到巴黎。因此，大模型和具身智能在应对环境和任务方面有很大的不同。但是，是否需要针对每个部署的空间进行建模，成本过高也是不现实的。因此，我认为具身智能需要在普适性和特殊性之间找到某种折中。没有普适性，具身智能在部署时的冷启动很难实现，成本也会很高。但它也必须具有某种特殊性，因为在特定环境中，仅靠预先训练的机器能力无法实现真正的智能。它需要在特定的部署环境中，通过与人和其他机器人的交互学习，不断提升智能。

这种交互能力就像小孩通过不断尝试和探索，例如将瓶子从桌上推下来看它是否会碎一样。通过这种方式，智能不断提升。我认为，不一定需要完全沿着目前大模型的发展道路，但大模型在理解问题和利用大数据方面的能力仍然是需要的。

司晓：我想追问一下，大模型使得现在的机器人在陌生环境下应对的能力方面有没有比之前有提升？

张正友：肯定是有的。

司晓：大模型对具身智能的价值体现在哪里？

张正友：体现在以下两个方面：第一，具身智能可以探索新的事物。通过强化学习，它可以在虚拟世界中组合出各种各样的东西。比如，抓取瓶子的任务，数据采集时可能只是针对一个特定的瓶子，不可能涵盖所有不同形状和大小的瓶子、棍子和碗等物品。这种全面采集是不现实的，但可以在机器人想象的空间里实现。第二，面对新的和不确定的物体时，如果原来抓取瓶子的方法无法应对一个更胖的瓶子，机器人需要尝试各种可能性来克服这种挑战。这也是目前努力解决的问题之一。通过在虚拟环境中不断尝试和调整，具身智能可以提升应对未知情况的能力。

司晓：在问张巍老师问题之前，我要想稍微加一点，三位都是科学家，我发现做机器人领域没有单纯的实践者，大家都有科学家的身份，张巍老师您是更偏实践一点，正友老师好像居中一点。我想问您，机器人的成本要打下来，您觉得在业界需要做什么工作？或者是未来怎么看价格的下降？

张巍：降成本我认为是有量就能降，现在的问题不是降不了成本，而是用不起来，这是逻辑的本质。用起来是降成本的第一步，有量了自然成本就下来了。

司晓：正友老师讲的20岁的大脑现在只有3岁的身体对吧？

张巍：我是很赞同两位的观点，大模型这部分我也补充一点。我们要认清现实，当前这波机器人的发展并不是机器人自身的进步，而是由AI发展的驱动。这波AI的发展与上一波有巨大的不同。尽管AI早就存在，神经网络也已经被广泛使用，但这次最大的变量在于其通用性和范式的转变。从专用AI到通用AI，我们发现仅在专业领域收集数据并不断攻关的方式已经行不通了。首先要确认一个基础功能，即基础模型（foundation model），然后再进行微调（fine-tuning），这种范式的改变是最大的变量。当然，数据、Transformer等技术的变化也起到了重要作用，但思考方式的变化更为关键。刚才两位提到可以用大模型来进行机器人任务规划和学习，这一点确实非常重要。但是，范式的变化对机器人来说更为重要。不再是通过专有领域的数据来达到极致的泛化，而是通过一个预训练（pretrain）的步骤，再通过大量数据学习基础的运动能力，然后针对具体任务进行微调。这逐渐形成了一个小范围的共识。

正如张老师提到的，人类出生时就像一个预训练的模型，并不是一无所知，你的大脑中已经记录了几代人的知识。在物理世界中，通过各类不同的探索进行微调，这个过程非常关键，也是大模型和机器人结合的一个重要点。我认为具身智能本质上就是多模态AI。再多说一点，当我上学时，做计算机视觉（CV）的人和做自然语言处理（NLP）的人是两伙互不相知的群体，而现在他们已经合二为一，大家都在拼数据和算力。未来几年，机器人偏软件方向的发展也会与NLP和多模态AI融合在一起，差距不再那么大。这是我认为的区别，也是为什么我认为我们应该拥抱大模型的原因。

司晓：您刚才也谈到这个话题，以机器人现在的能力，或者是展望未来三五年，机器人在生产生活，或者是在社会中的使用，大概会往哪个方向比较快的落地，最有可能先去落地的？

张巍：我可以先说一下我的看法。落地大概有几个原则。首先机器人不是新的，刚才正友老师也讲了，有很多形态的机器人已经落地应用了。而当前这波落地的关键是从简单到复杂，从封闭到开放，从To C到To B，最理想的，能与人在多元场景下进行交互、协作的应用是最难的。

首先，已有的机器人技术肯定会继续落地。像现在工厂里用于焊接的机器人，已经做得很好，并不会被轻易颠覆。但目前在机器人落地过程中存在一些不足，需要较高的部署成本。这部分会有改进的空间。大量部署和高集成成本是真正难以实现落地的原因，而泛化能力在这方面可以提供帮助。比如，在操作上，主要是分拣和拾取放置（pick-and-place）任务，这些任务基于视觉技术相对容易泛化。在装配和打磨方面，可能需要等到孙老师的传感器普及后，才会有较快的落地速度，因为目前这类数据的来源较少。

事实上，大模型不仅仅是语言模型，还包括多模态技术，在我看来，多模态技术已经在一些领域，比如无人驾驶行业落地并发挥作用。总体来说，现有产品中的复杂部署和集成环节将会率先得到改进，我认为这可能在两三年内实现。当然未来两年，还会催生一些新的产品，比如人形机器人这种通用形态。

孙富春：机器人目前的发展应该还是比较快，在很多场景都已经落地，如物流机器人，另一个重要的落地场景就是具身智能在生产线上的应用。

我去了宁德时代、比亚迪、富士康、小米，现在手机装配里估计60-70%都实现了机械化，而且效果还比较好，但没有智能化，即一条生产线能够适应不同产品的生产和产品的更新迭代。刚才张巍老师讲得比较对，应用到触觉、听觉跨模态融合这部分目前还在做的过程中，真正落地需要时间。

现在我们在实验室中已经取得了一些成果，但在实践过程中，可靠性和安全性问题还需要时间来解决。预计在未来3到5年内，这些问题应该能够得到解决。可以看到的一个重要发展是智能化产线能够适应不同种类和更新迭代的产品。制造业在我们国家占有很高的比例，尤其是3C产品和军工行业的装配领域。我相信在未来3到5年内，人们会在这些领域看到令人振奋的进展。

司晓：能不能理解为，之前的生产线如果只能生产某一个部件，或者是特定部件的装配，现在有了大模型的加持，可能产线的适配性变得更强？

孙富春：没错，过去我们讲的自动化办法是就事论事，现在通过AI技术，特别是与大模型技术的结合，很重要的是通用化。通用化也是机器人具身智能未来研究里面很重要的一个方向，也是最具挑战性的一个方面。我们做感知，后来开始做运动控制、导航，最难的部分就是行为，通用的行为操作，这才是智能里面最核心的部分，也是最难的部分。

司晓：正友老师我们也经常交流，您尝试做康养机器人，您觉得在哪些方向是最快能落地的？

孙富春：现在许多养生馆引入了艾灸机器人，这项技术在三五年前就已经开始应用了。这些机器人通过程序化作业和感知部分的结合，已经初步实现了自动化操作。此外，还有一些助老助残康复训练的机器人，例如日本的搬运机器人，可以将病人搬到病床上。国家康复中心承担的示范应用项目与养老和康养密切相关，例如智能床可以将老人推到浴室洗澡，日常的料理机器人也能完成倒水、帮助老人吃药等相应的任务。

目前，我们国家在这些方面的整体流程已经基本打通，但成本仍然较高。要真正普及到千家万户，还面临着降低成本的问题。此外，可靠性和实用性也是需要解决的关键问题。

司晓：也请正友老师说一下。

张正友：从长远的角度来看机器人肯定要走进千家万户，把自己不想做的事情全部扔给机器人来完成。马斯克也预测机器人的数量和人类的数量至少是1：1，可能是2：1或者是3：1，未来机器人可能会有100亿台，我是完全相信的，否则也不会创建机器人实验室，机器人肯定要走进千家万户。稍微往后退一点，也就是我现在比较有热情的场景方向就是养老，中国社会可能比较特殊，老龄化非常严重，所以希望具身智能或者是智能机器人能够尽早的担负一些护工的任务，我估计5年左右可以起到作用。

往近一点看，尤其是大模型，包括具身智能，可能会在教育中发生挺大的改变。现在已经有具身智能机器人能够很好地跟踪每个学生的学习进展，并量身定制学习目标和规划。根据学生的进展，机器人可以不断调整学习计划，从而更好地激发学生的学习积极性。这样的机器人相当于为每个学生提供个性化的学习支持，当然，一个机器人也可以同时负责几个学生，因为一个学生不会一直处于学习状态。这种量身定制的方式能够充分发挥每个学生的学习能力，我认为这是一个较为接近现实的应用场景。通过具身智能机器人，教育可以变得更加个性化和高效，使每个学生都能在自己的节奏和需求下获得最佳的学习体验。

司晓：刚才各位老师也都谈到了多模态可能是机器人进入到应用、进一步发展或者是促成AGI发展的先决条件，不知道这样讲是否合适，如果把计算机的五感，触觉、嗅觉、听觉、这些，视觉现在是不是发展得最好的？

孙富春：人是一个视觉大脑，我们大概80%的知识都是通过视觉获取的，接下来比较多的是听觉，约占10%，再下面是触觉，之后是味觉和嗅觉。

张正友：视觉肯定没有达到100分，假设达到100分。第一个原因是有摄像头作为标准的传感器可以收集很多数据。第二个原因是人有不同的文化、不同的语言，但是视觉几乎是统一的，可以把所有的数据拿来训练视觉。讲到听觉，听觉就不太一样了，现在GPT-4o已经很厉害了，毕竟它有不同的语言，要搜集不同语言的数据，尤其是对小语种、方言，这些地方还是欠缺的，可能只有80分。触觉我知道孙老师这边也做了很多工作，但是我觉得触觉方面的进展可能只有30分，因为触觉很多没有达到标准，嗅觉是更少。

张巍：我补充一个角度，目前大模型的视觉和机器人的视觉还不完全一样。大模型现有的视觉能力主要是对图片内容的理解，比如图片中有哪些对象，并基于此进行基础的推理。而机器人完成任务所需的视觉，不仅仅是对图片的理解，还包括对空间的视觉和空间感知能力。机器人需要能够在空间中感知和理解物体之间的坐标关系，并且这种感知需要非常准确。这方面的研究目前可能才刚刚起步，还没有正式大规模应用。像李飞飞博士的研究正是致力于解决这一问题，在空间中提供精准的坐标和关系感知，以帮助机器人更好地完成任务。

用多模态的方式来做空间理解的方式，这是一个角度。另外一个角度，不光视觉是一个模态，还有本体的传感器也是一个模态。这对于机器人完成任务还比较重要。

孙富春：多模态这边我要补充一点，人的学习是跨模态学习，通常把感知到的各种信息，视觉的、触觉的或是听觉的，通过人脑对信息进行融合和学习。但是人们在做事的过程中，恰恰把多模态学习的结果用来增强其中某一个模态。在跨模态学习过程中，模态可以转译，比如说日本有一个叫渡边江梨子（Watanabe Eniko）的女人， 2岁就失明了，2岁前看到过这个物理世界，后来的几十年里，她基本都在通过触摸感知这个世界，她有一个习惯是把触摸的东西画出来。这幅画震惊了学术界，因为江梨子的画中居然有透视原理。一个近乎先天的盲人究竟是如何理解透视的？科学家推断江梨子的触觉神经和视觉神经产生了某种奇妙的联结。

比如特斯拉的无人驾驶技术不依赖雷达，而是完全依靠视觉，这展示了视觉技术在重构环境方面的潜力。通过视觉推理，可以利用深度信息和其他同构视觉数据来推断雷达的信息。这种方法也体现了一种转译的思想。另外，在多模态中，协同学习也是一个重要的开发方向。其实小孩的聪明程度和他们大脑的跨模态能力有很大关系，这影响了孩子大脑的空间感和时间感，直接影响了孩子的想象力。研究人员还在研究人的四个脑区以及叠加在脑区上的多模态区域，这些区域对培养孩子的想象力非常重要。未来，跨模态的学习也会应用到机器人和大模型上。通过跨模态学习，大模型能够更好地理解和处理不同类型的信息，从而提高其智能和适应能力。这不仅有助于机器人完成复杂任务，还能为其在不同环境中的应用提供支持。

张正友：我也补充一点，刚才张巍老师和孙老师他们都讲了一个点，但是没有明确提出来这个点是多模态里同步的信息，对我们人类智能发育是非常重要的，比如说我刚才讲的把瓶子推下去砸碎，瓶子掉下去的声音和这个动作各方面，多模态的同步信息对我们是非常重要的。

司晓：我前面听过一个例子和孙教授讲的特别像，有人开发了一个马甲，马甲后面放了大概几十个传感器，这个振动器根据文字的不同发音形成震动训练，经过训练的人感觉仿佛听到了这个文字。虽然是皮肤的震动传递给大脑的信号，对大脑来说是全模态学习感知这个世界，是很多模态进行的，类比机器人要把它拆成是视觉、听觉、味觉、触觉，甚至还有第六感来感知这个世界。

我们讨论康养时提到，机器人作为人的助手，或未来与人类1:1相当，不仅可以为人类提供服务、提高生产力、节省体力，还可能在情感陪伴方面发挥重要作用。正如正友老师所说，20岁的大脑，GPT-4o的能力，以前可能只是一个功能性大脑，但如果能够通过不同的语气和情感表达，比如更有激情或愤怒的语调来细化情绪表达，将这种大脑安装在更像人的机器人上，情感价值将成为一个重要方向。这样的情感陪伴机器人不仅能为我们做事，还能在情感层面上提供支持，带来心理上的舒适和陪伴。它们可以理解和回应人类的情感需求，用细腻的情感互动提高人们的生活质量。这种情感价值，结合机器人在其他方面的功能，将使它们成为人类生活中不可或缺的伙伴。

我不知道几位在这个方向上怎么看，现在人形机器人更像《终结者》里面的铁架子，如果形态上更像的话或者是在表达情感上会不会有额外的价值？或者是怎么看这些方向？

孙富春：大模型的发展突破了大家的想象，从GPT-4，后来到Sora，再到ChatGPT-4o，多模态大模型近来发展很快，Gemini是目前最先进的多模态大模型。现在的大模型主要擅长完成“文科生”的任务，比如对话和语言理解。但是，当大模型与具身智能结合后，就会发生改变，形成类似于“工科生”的大模型。北京大学鄂维南院士提出的科学智能（AI for Science），如果与大模型结合，可望形成类似于“理科生”的大模型。结合工科生和理科生的能力，大模型将不仅仅停留在语言理解和对话层面，还将具备更强的技术和科学应用能力。这意味着大模型在解决实际工程问题、物理计算、复杂系统模拟等方面也能发挥重要作用。未来，可以期待大模型在多个学科交叉的领域中展现出更多的可能性和创新。

大模型其实也可以模仿我们人类的一些行为，比如说理性思考的行为、感知行为、动作行为，还有就是情感。现在模仿情感的行为很难，因为情感和很多要素有关，文化，宗教，上下文等，要把一个情感完全判断出来确实是很难的。GPT-4o能够检测一个人的情绪，识别语气语调，但是人的情感是多方面的，特别是需要上下文的理解。如果对话是普通单一场景比较容易揣摩情绪，如果放在一个复杂场景中，比如说“喜极而泣”，有时候不通过上下文很难判别不出来。

我个人觉得大模型很核心的问题之一，即如何使机器有自我意识，这个路还比较长。现在很多人提出一个观点，说大模型、具身智能、科学智能，包括他们的结合，可能是我们在座每个人这辈子遇到的最大的产业和科技革命。

张巍：问题是形态对情感有没有帮助吗？

司晓：对。

张巍：我是觉得每项技术有它终极的使命，我觉得AI的使命是代替人思考决策的，具身智能或者机器人的使命是代替人劳动的，它得动，光聊天我觉得可能差点劲。长得像人这件事是不是有帮助，那肯定是有的。机器人如果有两条腿，像人一样攀登塘朗山，如果有人攻击它，旁观者可能会感到非常同情它。这种情感连接可能是由机器人的人形形态引起的。尽管这并不是制造人形机器人的主要目标，但这种形态确实有助于人类与机器人之间的交互和情感陪伴。人形机器人这一形态主要的目标是提高机器人的环境适应能力和通用性。从专用机器人到通用人形机器人，这种转变是当前发展的本质。人形形态在适应各种环境和任务方面具有很大的优势，因为人类设计的大多数环境和工具都是为了人类自身的使用而设计的。机器人具备人形形态，可以更轻松地融入这些环境中，完成各种任务。

此外，人形形态确实有助于增强与人类的情感连接。人们更容易对与自己相似的形态产生情感共鸣，这对机器人在护理、陪伴等领域的应用尤为重要。总之，虽然人形并不是机器人发展的唯一目标，但它在环境适应性、通用性和情感交互方面确实有显著的优势。

张正友：这个问题不太好回答，具身智能它会不会产生情感我不清楚，首先我们也没有研究清楚人到底怎么产生情感，基因几百万年延续下来为了互相帮助才能活下来。我们造了一个机器人的情感从哪里来，说实在我不清楚。现在我们在做的不是说让机器人有情感，而是让机器人从人类的数据里模仿、去做有情感的样子，像人一样情感表达，怎么通过交互来表达情感更自然，这是可以做到的一点，但是我真的不知道机器人能不能产生情感。

司晓：显然我有意地问了一个大家没那么擅长的问题，我也同意正友老师说的大模型是否理解我们给它输入的文字，这都是存疑的。

孙富春：情感是人的感觉表现出来的东西，一个比较重要的部分是如何感知对方的行为。有一个很有趣的故事，庄子和惠子一起在濠水的桥上游玩。庄子说：“鲦鱼在河水中游得多么悠闲自得，这是鱼的快乐啊。”惠子说：“你又不是鱼，哪里知道鱼是快乐的呢？”庄子说：“你又不是我，怎么知道我不知道鱼儿是快乐的呢？惠子说：“我不是你，固然就不知道你（的想法）；你本来就不是鱼，你不知道鱼的快乐，这是可以完全确定的。”庄子说：“请你回归最开始的设定，你说：‘你哪里知道鱼快乐’这句话，就说明你很清楚我知道，所以才来问我是从哪里知道的。现在我告诉你，我是在濠水的桥上知道的。”其实智能系统都是通过外在的观察，即它表现出来的行为去判断它的智能，是一个外在性的测试。如果我们能够将外在性的测试和内在性机理结合起来，一定会更好地测试系统的智能，这是对传统图灵测试的发展。今天科学技术的发展，使得人们对大脑的研究取得了很多突破，为将外在性测试和内在性机理结合起来研究图灵测试提供了无限可能。

司晓：由于时间关系，相信大家也还很意犹未尽，限于时间关系，第一个圆桌论坛环节就到这里，谢谢三位的分享。

推荐阅读

张正友：《仅把大模型塞进机器人，产生不了真正的具身智能》

孙富春：《“人工智能那一套，对具身智能来说远远不够”》

👇 点个“在看”分享洞见

http://mp.weixin.qq.com/s?__biz=MjM5OTE0ODA2MQ==&mid=2650977175&idx=1&sn=599adf9a978128a85d85a291884c0a98

腾讯研究院

腾讯公司设立的社会科学研究机构，依托腾讯公司多元的产品、丰富的案例和海量的数据，围绕产业发展的焦点问题，通过开放合作的研究平台，汇集各界智慧，共同推动互联网产业健康、有序的发展，致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a