谷歌DeepMind宣布机器人打败人类，国乒真正的敌手，只剩AI机器人了？

创业 2024-08-11 01:59 美国

👆关注的人，领先不止一步👆

本文转载自公众号「智东西」

“硅兔君荐语

美国造出乒乓“神秘之师”，秘训1.4万板对拉，现场疾速解题。

当地时间8月10日，中国乒乓球队连续第五次获得奥运会女团冠军！至此，本届奥运会乒乓球比赛全部结束，中国队包揽5枚金牌。

在巴黎奥运会乒乓球赛场上，国乒健儿用行动续写了属于国乒的荣耀与辉煌。

就在两天前的8月8日，谷歌DeepMind宣布其研发的乒乓球AI机器人击败人类选手，放出多个视频演示，并在29页技术报告里详细介绍了原理。

据称，这是首个在乒乓球运动中达到业余人类水平的Agent（智能体）。谷歌这是要打造乒乓球界的AlphaGo——“AlphaPingPong”吗？

口说无凭，让我们先来看看实战记录：

这打的不说是旗鼓相当，也能称得上有来有回。机器人不仅将扣杀、正反手切换等对应技巧轻松拿下，还能不时来个“调右压左”策略，打得对面措手不及。

▲调右压左

专业乒乓球教练Barney J. Reed也对它赞不绝口：“很惊讶机器人达到了中级水平，这甚至超出了我的预期！”

在29场与人类选手的比拼中，机器人的平均胜率达到45%。其中，机器人在与初级选手的对战中取得100%的压倒性胜利，赢得了55%的中级选手，但输掉了所有与高级选手的比赛。

赛后采访中，大多数参赛玩家称与机器人比赛有趣且具有挑战性。三局比赛没玩够，还想再来一局！

谷歌的乒乓球AI机器人实力如何？让我们从演示视频和技术报告中来一探究竟。

论文地址：

https://arxiv.org/pdf/2408.03906

29场比赛打赢13场

初级玩家全军覆没

这款乒乓球机器人的硬件部分是一个6自由度的ABB 1100手臂，其安装在两个Festo线性龙门架上，能够在二维平面上移动。龙门架横向穿过桌子，长度为4米；纵向可朝向或远离桌子移动，长度为2米。机器手臂上安装了一个3D打印的球拍手柄，和一个带有短颗粒橡胶的球拍。

▲乒乓球机器人与专业教练对战

要与人类比拼，机器人必须擅长低级技能，例如回球、扣杀；以及高级技能，例如制定战略和长期规划以实现目标。

机器人首先在模拟环境中训练，该环境可以准确地模拟乒乓球比赛的物理特性。一旦部署到现实世界，它就会收集与人类对战的表现数据，从而在模拟中完善其技能，这样形成一个连续的反馈循环。

▲模拟训练

该系统还设计了适应对手风格的能力，通过跟踪对手的行为和比赛风格来适应不同的对手，例如倾向于将球传回球桌的哪一边。这样，机器人就能尝试不同的技能，监控成功率，并即时调整策略。

▲机器人与人类对战

为了评估机器人Agent的技能水平，29名不同技能水平的乒乓球运动员与其进行了比赛。根据对乒乓球经验的问卷调查以及专业教练的评分，这些运动员被划分为初学者、中级、高级和超高级。

其中，初学者和中级玩家几乎没有接受过教练的指导，也几乎没有参加过比赛。初学者通常经验不足一年，每月打球次数少于一次；而中级玩家通常已经打球超过一年，每周打球一次或多次。

高级以上玩家都已经打球超过三年，并且接受过教练的指导。超高级的玩家打球时间更长，参加比赛次数更多。

▲参赛者能力划分

每个人类选手与机器人进行3局比赛，比赛遵循标准的11分赛制，但不遵循“三局两胜”的规则，而是无论输赢都比完3局。由于机器人无法发球，因此规则进行了一些修改，人类选手不能在发球时得分或失分。

在29场比赛中，机器人赢了13场，胜率达到45%。其中，与初学者选手的对战机器人100%获胜，对战中级选手胜率55%。

然而，由于硬件和技术限制，机器人还无法战胜高级运动员，往往一个快速球就把它打趴下了。包括反应速度、摄像头感应能力、旋转处理和桨叶橡胶等在内的影响因素，使其很难在模拟中准确建模。

▲机器人Agent对战高级玩家

具体看得分情况，机器人对战低、中、高、超高级别的选手时，平均得分率分别为72%、50%、34%、34%，可以说是和中级选手“五五开”。虽然整场比赛全部输给高级选手，但具体到每一局，机器人还是赢了6-7%的战局。

在面对初级、中级玩家时，机器人总是赢得第一局，胜率达到100%；然后在第二局，机器人对中级玩家的胜率下降到27%，又在第三局回升至36%。

DeepMind经过赛后采访分析得知，人类玩家在第一局比赛中往往需要适应新环境；到了第二局他们可以识别出机器人的一些弱点，并有针对性地进攻；但到了第三局，机器人已经能够从对手的打法中学习，并提高了胜率。

▲比赛情况

在赛后采访中，大多数玩家称与机器人比赛有趣，且具有挑战性。他们提到机器人具有动态性和刺激性，并且在游戏中提供了平衡高速性能和人类舒适度的机会。当被问到是否有兴趣再和机器人玩一次时，超过70%的玩家表示“非常乐意”。

三场竞争性比赛结束后，玩家们还获得一个可选的自由玩耍环节，最长5分钟。玩家们平均与机器人又玩了4分零6秒。

▲玩家反馈

部分高级玩家发现了机器人策略中的弱点，例如它并不擅长下旋球，他们仍然对“人机对战”乐在其中。在赛后采访中，他们谈到它有潜力成为比发球手更有活力的练习伙伴。

苦学1.4万对拉球

模拟+实地训练循环正反馈

为了达到人类水平的乒乓球竞技表现，机器人需要具备高速度的运动能力、精确的控制和实时的决策能力；此外，乒乓球比赛动态复杂，涉及快速的眼手协调和高层次策略。

为了解决这些问题，DeepMind提出了一种新方法，主要包括四个方面的技术贡献：分层和模块化的策略架构；零镜头模拟到真实的技术，包括定义基于现实世界的训练任务分布的迭代方法；对未知对手的实时适应；测试模型在物理环境中与人类进行实际比赛的用户研究。

分层和模块化的策略架构整体框架如下。其中，智能体由一个LLC（低级技能库）和选择最有效技能的HLC（高级控制器）组成。

▲整体框架

LLC负责提供一套技能库，以供HLC在其策略中部署这些技能。LLC的训练分为三个步骤：首先，训练两个通用的基础策略，分别对应正手、反手两种主要打法；其次，通过添加奖励函数组件，在微调新策略之前调整训练数据组合；最后，评估新策略并判断策略是否展现出所需的特性。

▲低层控制器

LLC中的每个低级技能策略都专注于乒乓球的特定方面，例如正手上旋球、反手瞄准或正手发球。除了训练策略本身，该方法还收集和存储了关于每个低级技能的优势、劣势和局限性的信息，由此产生的技能描述符为机器人提供了有关其能力和缺点的重要信息。

HLC负责制定战略决策，例如回球的位置、击球的速度以及承担的风险程度。目前，HLC仅能执行简单的策略，是整个系统的初步概念验证。

▲高层控制器

每次击球后，HLC会首先对当前的击球状态选择风格策略，以决定用哪个LLC回球。如果是发球，它会尝试将旋转分为上旋球和下旋球，并选择相应的LLC；否则，它必须通过在相应的LLC技能表中找到最相似的球状态，获得回球统计数据，从而确定哪种LLC表现最佳。

生成候选LLC的短名单后，HLC通过加权选出最终的LLC。选定的LLC将以50Hz的频率与当前球状态进行对比查询，以确定机器人的行动。

为了训练机器人，DeepMind收集了40分钟人类比赛数据，以及来自发球者的480次不同发球，作为乒乓球初始状态的种子数据集，包括位置、速度和旋转等信息。系统使用这个数据集进行练习并学习不同的技巧，如正手上旋球、反手瞄准和回球发球。

▲数据集

初步数据集包含2600个初始球状态，另外独立收集了900个发球数据。通过在数据集上进行模拟训练，在现实世界中评估，并使用带注释的评估数据扩展数据集进行迭代循环，DeepMind最终在3个月里完成了7个周期的对拉（Rally）球数据集和2个周期的发球（Serve）数据集迭代，得到了1.4万个对拉球状态数据和3400个发球状态数据。

▲迭代后的数据集

超4年技术积累

网友：卖我一台

谷歌DeepMind团队对乒乓球机器人的研究已经持续数年。例如在2020年，DeepMind曾提出一种无模型算法，能够通过以100Hz的频率控制机器人关节来回击乒乓球，在各种发球中实现了80%的回球率。

▲谷歌乒乓球机器人过往研究

2022年7月，谷歌发布机器人策略强化学习技术i-Sim2Real，通过深度强化学习实现高速、动态乒乓球，最长能让机器人与人类玩家互动超过4分钟不中断，击球340次。

▲i-Sim2Real

这个时候的机器人看起来还有点笨拙，只会左右移动正手接球。

在去年9月的机器人乒乓球高速学习系统案例中，通过整合优化的感知子系统、高速低延迟机器人控制器等技术，谷歌团队已经实现在物理机器人上进行自主训练和评估。这时的机器人比起上一阶段已经灵活了许多。

▲机器人乒乓球

此次发布的Agent也让不少网友大呼精彩。

有的网友已经迫不及待想带回家了：“作为乒乓球业余爱好者，我很乐意在未来购买一台。”

▲网友评论

“这个机器人是本届巴黎奥运会的运动员吗？”

▲网友评论

还有网友“隔空索敌”，呼唤特斯拉擎天柱：“你的对手来了！”

▲网友评论

也有一些质疑的声音出现。例如有网友认为它不够通用：“你能用自然语言问它为什么决定做某个动作吗？你能要求它加大打击力度或改变策略吗？如果你无法让机器人变得足够通用，那么为什么呢？最大的障碍是什么？”

▲网友评论

谷歌研究人员称，这个机器人乒乓球运动员的意义远不止乒乓球世界，其底层技术可以应用于从制造业到医疗保健的各种机器人任务，这些任务需要快速反应和适应不可预测的人类行为，潜在的应用范围很大。

从脑力到体力

AI席卷竞技体育

对于创建能够击败人类游戏玩家的AI模型，DeepMind并不陌生。从打败世界围棋冠军的AlphaGo，到全能棋类专家AlphaZero，DeepMind证明了AI在棋类游戏中的强大潜力。谷歌的这款乒乓球机器人虽然目前还未达到高级球员的水平，但在一步步的技术迭代中，未来很可能与国际顶尖选手们一较高下。

实际上，AI、机器人等前沿技术已经在专业的赛事训练中落地。早在2020年，中国乒乓球学院就将AI发球机器人用在训练中，一个机器人可以同时负责三名球员，还会针对不同层次人群进行不同等级的训练。除了乒乓球，AI辅助训练也已经篮球、跳水、帆船、游泳等多个比赛项目的前期备战中得到使用，为运动员提供个性化、精准的训练指导。

👇最新直播活动预约👇

万字梳理！2024年，北美新晋38家独角兽｜投资人笔记

Get Rich

点赞+在看，搞钱稳赚！

http://mp.weixin.qq.com/s?__biz=MzI4MDUzMTc3Mg==&mid=2247616559&idx=1&sn=62e698089655fef1e794e10d5fda27ac

硅兔赛跑

50万创投人关注的硅谷风向标

最新文章

19岁辍学创业，英国最年轻的亿万富翁是怎样炼成的

喜报｜UpHonest Capital合伙人兼COO谈冶祯登上【2024福布斯中国·最具影响力华人精英TOP 100】

北美创投圈洗牌？20位风险投资家重新站位

就在明天！千亿北美流媒体市场，短剧出海能分多少羹?｜硅兔对话创始人

失去灵魂人物后，Off-White走向大败局

比尔·盖茨认证的AI领域最牛大佬，发布新20年的AI预言

商业智能自动化工具Rollstack完成1100万美元A轮融资｜硅兔星项目

刚上线就被玩疯！一键为表情包照片写歌，这个AI简直太上头

a16z Demo Day现场直击！32家AI创企齐聚，解读北美游戏三大新趋势｜硅兔独家

巨头抢布局，VC狂撒钱，为了能让「AI读心」这些公司卷疯了

AI保险管理公司COVU完成1250万美元A轮融资｜硅兔星项目

特斯拉发布Cybercab！无方向盘和油板、成本3万美金，2025年投产

Whole Foods创始人七旬再创业，北美最贵的健康中心给你亿点震撼

成立一年即盈利的AI公司，估值2.5亿美元

「海外版豆瓣」爆火！5亿条赛博日记，重塑北美社交媒体

对话创始人：Velotric张曦，北美E-bike领先之道｜硅兔活动

万亿超级独角兽诞生！OpenAI宣布463亿新融资，估值超11000亿

10月你不能错过的AI大会，2024硅谷101科技大会亮点预览｜硅兔推荐

YC S24 完整项目清单来了！190家AI项目一览｜硅兔独家

自动驾驶卡车公司Bot Auto宣布完成2000万美元Pre-A轮融资｜硅兔星项目

Meta深夜炸场：首款天价AR眼镜问世！真机上手，黄仁勋亲自站台

硅谷创业观察：拐点之下，北美创业者生存指南

三次错失风口！OpenAI前员工杀回AI编程赛道，老东家捧金相助

2024 HYSTA年会10月5日硅谷盛大揭幕，限量优惠门票火热放送中｜硅兔推荐

硅谷YC 2024：半年诞生300+ AI初创！华裔AI创业者杀疯了

英特尔，赶不上AI芯片末班车

超万亿美元的太空经济背后，谁是最大推手？

独家对话发起人李珎，揭秘爆火AI工程师Replit Agent，分分钟用手机创造APP

鸽子开导弹，死鱼会游泳，把虫子灌醉…今年的搞笑诺奖来了

销售税解决方案Zamp完成1000万美金A轮融资｜硅兔星项目

“AI Phone”来了！苹果巅峰之作，一文看完苹果发布会

9个人的文生图公司，2500万用户，净利润百万美元

创立3家公司，2次被谷歌收购，1家成功上市：多邻国之父的不凡之路

三位哈佛00后联手创业，7个月拿下亿元估值

GlobalStar完成数千万Pre-A轮融资，深耕全球红人营销解决方案

韩国 N 号房再现！大量女性被 AI 换脸，涉及 500 所学校，超过 22 万人参与

20个月烧掉100亿，OpenAI正在找「续命钱」

半年狂赚5亿美元，两位MIT博士打造首个净水独角兽

硅兔荐书｜故事、骰子和会思考的石头（内含福利）

无人驾驶优等生，Waymo的冲刺与障碍

00后整顿职场的风，还是吹到了VC圈

硅谷AI“围剿”与“反围剿”