突发！Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

科技 2024-10-30 13:05 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心｜编辑：蛋酱

从 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor，再到最近的 Gemini 和 AlphaProof，Julian Schrittwieser 的工作成果似乎比他的名字更广为人知。

今天的 AI 社区，再次被一则大佬转会消息吸引了目光。

在谷歌工作十年后，大名鼎鼎的谷歌 DeepMind Alpha 系列核心作者 Julian Schrittwieser，宣布加入 Anthropic。

我很高兴地宣布，将从本周起加入 Anthropic！Claude 是我发现自己一直在使用的第一个 LLM。最近，我被《Artifacts》和《Computer Use》以及 Claude 不断提高的技能深深震撼了。

我非常幸运地参与了谷歌 DeepMind 过去 10 年的奇妙旅程，在那里我参与了很多令人兴奋的项目，这是我做梦都想不到的：从 AlphaGo 到 AlphaZero 和 MuZero 的传奇；还有很多的应用研究，如 AlphaCode 和 AlphaTensor，以及最近的 Gemini 和 AlphaProof。我相信，那里的团队也将继续创造惊人的成就，我迫不及待地想一探究竟！

Julian Schrittwieser 的跳槽，可以说是近期领域内最为惊人的一则消息，因为 Julian Schrittwieser 在 DeepMind 内部的地位非同寻常。更令人好奇的是，Anthropic 是如何招揽到这样一位顶尖人才：

不管过程如何，这一定是 Anthropic 最「超值」的一次招聘：

在 DeepMind 诞生以来的数年中，「Alpha 系列成果」一直是该团队最闪耀的前沿成果。而 Julian Schrittwieser 是这些伟大成就中不可忽视的贡献者。

2016 年，DeepMind 开发的 AlphaGo 以 4：1 击败世界顶级围棋棋手李世石（Lee Se-dol），成为轰动全球的人工智能里程碑事件。Julian Schrittwieser 参与撰写了第一篇关于 AlphaGo 的里程碑式论文。

《AlphaGo 4:1 战胜李世石，我们需要更好的理解人工智能》

2017 年，在 AlphaGo 与柯洁的比赛之后，DeepMind 宣布退役 AlphaGo，自学成才的 AlphaGo Zero 以 100:0 击败了早期的竞技版 AlphaGo，Julian Schrittwieser 是 AlphaGo Zero 论文的第二作者，也负责了从主搜索算法、训练框架到对新硬件的支持等工作。

而 AlphaGo Zero 随后被拓展为一个名为 AlphaZero 的程序。2017 年底，DeepMind 正式发表了 AlphaZero，这是一种可以从零开始通过 Self-Play 强化学习在多种任务上达到超越人类水平的算法。该算法经过不到 24 小时的训练后，即可在国际象棋和日本将棋上击败此前业内顶尖的计算机程序（这些程序早已超越人类世界冠军水平），也轻松击败了训练 3 天时间的 AlphaGo Zero。

《不只是围棋！AlphaGo Zero 之后 DeepMind 推出泛化强化学习算法 AlphaZero》

2020 年，DeepMind 发表了 MuZero。在不具备任何底层动态知识的情况下，该算法通过结合基于树的搜索和学得模型，不仅在国际象棋、日本将棋和围棋的精确规划任务中匹敌 AlphaZero，还在 30 多款雅达利游戏中展示出了超越人类的表现。Julian Schrittwieser 是 MuZero 论文《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》的核心作者之一。

《通用 AlphaGo 诞生？DeepMind 的 MuZero 在多种棋类游戏中超越人类》

2022 年 2 月，DeepMind 发布了基于 Transformer 模型的 AlphaCode，可以编写与人类相媲美的计算机程序。包括 Julian Schrittwieser 在内的多位作者后续又在《Science》上发表了论文。

2022 年 10 月，DeepMind 提出了 AlphaTensor，第一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统，并揭示了 50 年来在数学领域一个悬而未决的问题，即找到两个矩阵相乘最快方法。AlphaTensor 建立在 AlphaZero 的基础上，展示了 AlphaZero 从用于游戏到首次用于解决未解决的数学问题的一次转变。

《强化学习发现矩阵乘法算法，DeepMind 再登 Nature 封面推出 AlphaTensor》

2023 年 6 月，谷歌 DeepMind 发布了 AlphaDev，这种全新的强化学习系统发现了一种比以往更快的哈希算法。Julian Schrittwieser 也是 AlphaDev 项目的核心参与者之一。

《AI 重写排序算法，速度快 70%：DeepMind AlphaDev 革新计算基础，每天调用万亿次的库更新了》

2024 年 7 月，谷歌 DeepMind 团队研发的 AlphaProof 和 AlphaGeometry 2 在 IMO 竞赛上共同实现了里程碑式的突破。AlphaProof 是一种用于形式化数学推理的强化学习系统，而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改进版本。正式比赛中，AlphaProof+AlphaGeometry 2 组合成的 AI 系统在几分钟内就解决了人类参赛选手需要几个小时才能解决的问题。

《谷歌 AI 拿下 IMO 奥数银牌，数学推理模型 AlphaProof 面世，强化学习 is so back》

8 年前，基于强化学习的 AlphaGo 声名大噪；8 年后，强化学习在 AlphaProof 中再次大放异彩。2016 年 AlphaGo 论文的核心成员 Julian Schrittwieser、Aja Huang、Yannick Schroecker，如今也是 AlphaProof 的核心贡献者。有人在朋友圈感叹说：RL is so back！

业内普遍认为，OpenAI o1 运用的技术关键也在于强化学习的搜索与学习机制，这标志着 RL 下 Post-Training Scaling Law 的时代正式到来。正如《The Bitter Lesson》所说，只有搜索和学习这两种学习范式能够随着计算能力的增长无限扩展。强化学习作为这两种学习范式的载体，如何能够在实现可扩展的 RL 学习（Scalable RL Learning）和强化学习扩展法则（RL Scaling Law），将成为进一步突破大模型性能上限的关键途径。

这或许就是 Calude 团队招揽 Julian Schrittwieser 的出发点。o1 研发团队在采访中也谈到过，OpenAI 很早就受到 AlphaGo 的启发，意识到了深度强化学习的巨大潜力，并在相关方向投入了大量研究力量。

作为 RL 领域的深耕者，Julian Schrittwieser 又会带领 Claude 团队做出怎样的成果呢？让我们拭目以待。

参考链接：https://www.furidamu.org/blog/2024/10/28/joining-anthropic/

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

租GPU算力又一轮价格暴跌，对高校和企业意味着什么？

李飞飞团队新作！统一动作与语言，全新多模态模型不仅超懂指令，还能读懂隐含情绪

ICML 2025、IJCAI 2025顶会投稿微信群成立！

浙江大学发布情况通报

CVPR今年这情况，很严重，大家做好准备吧

顶刊TPAMI 2024！北大提出实用、紧致的智能图像压缩感知技术

ECCV 2024 | 迈向通用激光雷达语义分割！取代Transformer的新架构SFPNet

IJCAI 2025、ICML 2025 顶会投稿微信群成立！

最大的Mamba和遥感微信群成立！

突发：中科院二区TOP期刊被剔除SCI！

一文看尽2024年11种主流注意力机制

大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

复旦&微软提出StableAnimator：首个端到端的高质量ID一致性人类视频生成新框架！

ICLR 2025 快开奖啦！IJCAI 2025、ICML 2025投稿微信群成立！

扩散模型和多模态微信群来了！

颜宁团队，最新成果！

Kaggle大神自述：炼丹经验总结

NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，何恺明谈AI宿命论，Bengio同OpenAI员工吵架。。。

收录顶会！elaTCSF：用于闪烁检测和建模可变刷新率闪烁的时间对比敏感度函数

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

ICLR 2025 即将开奖！IJCAI 2025 投稿微信群成立！

第一单位！科技大学，发Nature！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

愤怒！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

天津大学提出iLLaVA：你的大模型仅需处理33%输入

ReID和目标跟踪微信群来了！

拆分！河南，拟建2所新大学

AAAI 2025 开会群成立！转投 IJCAI 2025 投稿微信群来了！

2026届大厂校招群成立！

悼念！清华大学计算机教授、《数据结构》编著者严蔚敏去世，享年 86 岁

NVIDIA自动驾驶技术：从训练到推理

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

AAAI 2025 | CALF：用于长期时间序列预测的高效跨模态LLM微调框架

AAAI收了一篇论文：没算法没实验，全靠idea思路好...

Sora之后，Apple发布视频生成大模型STIV：87亿参数大一统T2V、TI2V任务

NeurIPS 2024 | GarmentLab：衣物与柔体操作的物理仿真环境与基准测试

IJCAI 2025 投稿微信群成立！

扩散模型和多模态微信群来了！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

AAAI 2025接收结果出炉！Mamba再次爆发

谷歌狙击OpenAI，突发Gemini 2.0新一代大模型！主打多模态和Agent

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

2026届AI校招群成立！

ReID和目标跟踪微信群来了！

985教授已发表1226篇论文引争议，本人回应！

只要敢捞偏门，篇篇都是顶会顶刊！

AAAI 2025 | 从架构角度重新审视3D异常检测的多模态融合

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

突发！Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！