岁首年终之时
令人热血沸腾的高光时刻
一个接着一个
且看
在人工智能与机器人领域
精彩的“中国成就”
不断惊艳亮相——
宇树科技轮足机器人Unitree B2-W活力登场。这个“神奇动物”不管是在崎岖山路,还是在泥泞小道,都能如履平地,灵动穿梭;它在接近90度的陡坡上也能自由行动,甚至还能原地完成“后空翻”!
DeepSeek-V3大模型像是一位深藏不露的绝世高手,“闭关”修炼数月,一朝“下山”,便震动了大模型的“江湖”。它不走堆砌算力的“寻常路”,凭借创新性的架构设计,独辟出又准又快的高速算法,成本还低得超乎想象。
还有智元机器人分享的百万真机数据集开源项目AgiBot World,为全球科研人员打开了一扇通往通用人工智能新世界的大门……
来,一起跃入这片充满惊喜的科技海洋,好好感受这些了不起的中国成就吧!
工业级别机器人开源具身数据集
智元机器人AgiBot World
1月5日,智元机器人第1000台具身智能机器人正式下线,其中人形机器人731台,轮式机器人269台。这一成果标志着智元机器人在具身智能领域又迈出关键一步,成为通用具身机器人发展史上重要的里程碑事件。
智元机器人成立于2023年2月,致力于打造世界级领先的具身智能机器人产品及应用生态。具身数据对于人形机器人开发极其重要。它可以说是机器人的 “生活经验”,包含了大量真实世界的场景、动作、交互等信息。有了这些数据,机器人才能像人一样理解周围环境,懂得人类的意图和情感,帮助人类完成从“进厂打工”、家务保洁到科学实验等种种复杂任务。
2024年底,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思科技有限公司,干了件轰动业界的大事——重磅推出全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目AgiBot World。
智元机器人的这一开源成果,含金量极高。对比Google开源的 OpenX-Embodiment数据集,AgiBot World优势尽显:它的长程数据规模达到了前者的10倍之多,场景覆盖面更足足是Open-Embodiment的100倍,数据质量也实现了质的飞跃,从实验室场景模拟的初级水准,一举跃升至契合工业复杂需求的高标准。
AgiBot World数据集诞生于智元机器人自建的大规模数据采集工厂与应用实验基地。该基地空间总面积超过4000平方米,包含3000多种真实物品,真实复刻了家居、餐饮、工业、商超和办公五大核心场景,全面覆盖了机器人在生产、生活中的各种典型应用需求。通过多场景的高度还原与任务设计,AgiBot World为机器人研发和测试构建了实现具身智能的必要条件,有望大幅降低这一领域的研究门槛,推动人形机器人技术创新、跨学科合作和行业应用。
类似这样的真实场景,AgiBot World百万真机数据集中有100多种
据悉,今年智元机器人计划举办一系列AgiBot World挑战赛,面向全球吸引科研团队和创新人才参赛。
智元机器人联合创始人兼首席技术官彭志辉认为,未来2-3年,机器人将进入制造业领域,特别是在柔性生产、装配线等场景中逐步普及;未来5年内,它们将进入家政领域,从事较为简单的家务、陪伴和照护工作,开始成为家庭的新成员。
全球首款全地形探险机器狗
宇树科技Unitree B2-W
话不多说,上视频!
是不是已经被宇树科技的这款Unitree B2-W机器狗强大酷炫的功能震撼了?就连马斯克,看到这个视频也没能摁住点赞转发的手。
宇树科技成立于2016年,是全球首家公开零售高性能四足机器人并最早实现行业落地的公司。Unitree B2-W机器狗是在宇树科技一年前批量生产的Unitree工业B2机器狗的基础上持续创新研发而成。
Unitree B2-W机器狗的各种高难度动作,得益于对复杂强化学习方法的应用。其学习过程可以类比人类学习各种运动的过程,在持续的尝试、失败和纠错中,逐渐找到最优的动作策略。这种学习方式大幅提升了机器狗在实操中的表现,使其能够完成侧空翻、下陡坡等高难度动作。此外,机器狗配备多种高性能传感器,综合应用智能算法,可处理复杂的传感器数据,实时分析环境信息。敏锐的“感官”和聪明的“大脑”,让它在“翻跟斗”“下陡坡”等种种“神操作”中表现非凡。
除了“勤奋学习”和“耳聪目明”,这只机器狗还堪称“身强力壮”。
它“跑得快”:最大移动速度可达20公里/小时,超过6米/秒,比不少人骑自行车的速度还快,是最快的工业级四足机器人之一;“扛得起”:最大站立负载120公斤,持续行走负载超40公斤,可驮起成年男子前行;“撑得久”:空载可持续工作5小时以上,承载20公斤负荷工作超过4小时,满负载最大续航里程50千米。轮足设计既能适应复杂的高难度地形如爬山、上楼、走碎石地和跨越沟堑,也能在地形平坦时“开足马力”前进。
据了解,宇树科技的机器人硬件如电机、减速器、驱动器、电池和各类传感器本体均为自主研发。未来,在工厂巡检和物料搬运、消防救援和地质灾害救援、景区的物资运送和景点建设等领域,可以想见,它将会有许多大显身手之处。
打破唯GPU论的超高性价比大模型
DeepSeek-V3
2024年底,DeepSeek(深度求索)发布的模型DeepSeek-V3首个版本凭借模型性能,在全球最知名的大模型评比榜单“聊天机器人竞技场”上位列第七,是前10名中唯一的开源国产大模型。DeepSeek是一家创新型科技公司,成立于2023年,专注于开发先进的大语言模型及相关技术。
从公开信息来看,DeepSeek-V3在知识类任务上,接近当前表现最好的Claude-3.5版本,在代码能力上稍强于后者;而在数学能力上,它已明显领先包括GPT-4o、Qwen2.5在内的其他开闭源模型的最新版本。
然而,真正震撼大模型“江湖”的甚至还不是它的性能,而是它的“性价比”——训练成本上,DeepSeek-V3仅用2048块GPU,训练时间不到2个月,花费550多万美元,而GPT-4o模型训练成本约1亿美元,DeepSeek-V3的成本仅为其1/20。
长期以来,“要训练好大模型,就需要足够的GPU、电力和时间”的“唯GPU论”观念在大模型业界根深蒂固,而DeepSeek-V3给大模型领域带来了全新的气象,打破了一直以来“唯GPU”的固有认知。
这是如何做到的?
DeepSeek用一篇50多页的论文公开了它所采用的技术:通过数十项的算法创新,让模型做到了对算力需求的极致压缩。
例如,它巧妙地采用了MLA架构,即用一种独特的方式对计算和存储的层次进行降维压缩。打一个比方,传统方法相当于在图书检索系统中,为每本书都建立完整的索引卡片和内容摘要,而DeepSeek-V3则是建立了一个智能的分类系统,只需记录一个简单的“标签”,例如把“计算机技术,三楼右侧第二排”简化成“C2-3”,需要时再从标签还原出详细信息。这一技术使得训练内存占用减少了20-30%,让模型能使用同等资源处理更复杂的文本。
又如,它采用了MoE架构,也就是“混合专家”:将多个称为“专家”的模型结合在一起,以此获得更好的预测性能。采用该架构的产品不少,但DeepSeek-V3和其他MoE模型的区别是,它通过对“专家”进行分层编组,在处理任务时,精准激活最适合的8个“专家”,避免一股脑儿让所有“专家”都参与运算,大大减少了计算量。
因GPU数量受限导致的算力不足始终是摆在国内AI公司面前的一大难题,而DeepSeek-V3的高效算法技术,让更多的AI公司看到了新的希望。
有话说
从实验室到现实应用,从高山陡坡到工厂车间,从代码世界到日常生活,中国科技力量正稳步扎根、开枝散叶。这些科技成果不仅会重塑产业格局,带来新的经济增长点,更会实实在在地改变你我的生活,让科幻电影中的炫酷场景一步步走进现实。
文字丨梦得