12月23日,“2025中国信通院深度观察报告会”在北京举办。中国信息通信研究院(简称“中国信通院”)副总工程师许志远在大会期间发表了自身对机器人领域的观点和见解。
他表示,以大模型为代表的人工智能技术突破性发展,为实现通用机器人打开了大门。目前硬件解决方案基本收敛,但软件算法仍在快速迭代创新,数据稀缺性是机器人能力泛化的关键制约。
人工智能为实现通用机器人打开大门
在许志远看来,人工智能技术突破性发展,为实现通用机器人打开了大门,其核心是增强了机器人的认知与交互能力,并赋予机器人在物理世界中执行任务的强大泛化能力。
“能力泛化可以理解为一种迁移学习,即把从过去的经验中学习到的知识、策略和行为应用到新的领域,这使机器人能够在动态和复杂环境中自主进行任务理解,并通过感知、决策规划和运动控制实现任务的闭环,机器人真正成为一个可以与世界交互、存在自主智能的个体。”许志远进一步解释称。
可以看到,这两年投资市场和产业界对机器人的关注热度高涨,具身智能和人形机器人这两个词汇出现的频率很高。而中国和美国是最活跃的两个国家,谷歌、特斯拉、OpenAI等国外头部科技企业纷纷加码机器人投入,国内也涌现出银河通用、智元这样的优秀企业,小米、小鹏等也在造人形机器人。
未来仍需聚焦硬件及软件算法创新
据许志远介绍,机器人的概念最早起源于上个世纪20年代,经过多年的发展,相关硬件技术趋于成熟,模块化、高度集成等成为重要特点,移动机器人形态基本收敛至人形、四足、轮式等。
硬件创新方面,机器人主要涵盖执行机构、传感器、芯片、电池和新材料等技术。执行机构作为机器人本体的核心,近两年已从液压驱动转向电驱动,相关旋转和线性运动方案也基本清晰。“未来,随着技术进步和需求聚焦,机器人将进一步与前沿仿生、类脑等技术结合,结合新材料、电子皮肤、仿生设计等技术,实现类人级感知与精巧操作。”
软件算法方面,目前业界主流的智能机器人解决方案是将大脑和小脑分层,大脑负责交互、感知、决策,是基于现有大语言模型(LLM)或视觉语言模型(VLM),小脑负责具体的运动控制,有的是基于传统动力学建模,也有基于模仿学习、强化学习等技术。“未来看,随着边缘计算增强、交互数据丰富,软件技术可能逐步向端到端大模型驱动的一体化架构演进,以全面实现自学习、自适应和自演化能力,即只需要一个模型便可以驱动多个不同的异构机器人,例如人形、四足等。”
人形机器人仍不够成熟,需渐进落地
谈及人形机器人距离走入我们生活还有多远这一问题,许志远坦言,工业制造、商业服务、家庭服务将是人形机器人落地三个主要的场景,并且呈现依次渐进落地的关系,1~3年内用于汽车制造、商超补货等封闭/半封闭场景的人形机器人将出现,而与我们共处同一环境,可帮助执行家务、助老等人形机器人产品落地可能在5年甚至10年以上。
究其原因,许志远表示,人形机器人在环境适应性、人机交互的自然性和接受度等方面更具有优势,是通用机器人追求的终极形态。但人形机器人不一定是完全仿照人来设计,因为现阶段人形并不一定是商业化落地的最优解,短期内市场上应该还是存在“主体人形”搭配“定制化组件”,例如腿部采用轮式底盘或轮腿组合,上肢采用机械臂,手部为三指灵巧手或夹爪、吸盘等。
目前,人形机器人仍然不够成熟。硬件方面,头部公司的人形机器人产品除手部以外,全身有50多个自由度,如果在复杂的环境中行走需要更强大的运动控制能力。机器人上肢要想实现精细化操作,则依赖高自由度的灵巧手,但手部触觉传感器、执行机构等关键部分仍存在问题。此外,电池续航、成本、端侧算力等也是机器人规模化应用的重要难题。
除硬件以外,软件其实是机器人落地的更大挑战。大模型的本质是数据驱动,只有基于庞大的数据量来训练,才能实现智能的涌现。而机器人大模型与这两年成熟的大语言模型不一样,语言模型的数据可以来自庞大的互联网,机器人还需要物理世界中高精度操作数据,这些数据是互联网没有的。只有解决了这些问题,机器人才能大规模走入我们的生活。
来源:飞象网
校 审 | 谨 言、珊 珊
编 辑 | 凌 霄
推荐阅读