Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

科技 2024-11-18 13:07 北京

新智元报道

编辑：编辑部 HYZ

【新智元导读】最近，大家都被这条消息吓到了：传说Grok 3已经成功证明出黎曼猜想？！虽然这是在玩梗，但还是让我们来仔细剖析下，目前的AI距离千禧年数学难题，究竟还有多远。

黎曼猜想，竟被Grok 3「证明」了？

为此，xAI暂停了Grok 3的训练来验证它的证明，如果结果是正确的，将会完全终止模型的训练。

xAI工程师Hieu Pham在社交媒体的最新「爆料」，成为AI圈最火爆的话题。

要知道，黎曼猜想是千禧年七大数学难题之一，被誉为「猜想界的皇冠」。

2000年，黎曼猜想被美国克雷数学研究所（Clay Mathematics Institute of Cambridge，CMI）指定为「七大千禧年难题之一」

由于信息量太大，网友们直接被整懵了，分不清这是真的还是在玩梗……

几个小时之后，在Pham另一个帖子中，证明了这只是自己的调侃。

恶搞的起因是，一位网友Andrew Curran最先「爆料」，传言称Grok3在训练时发生了灾难性事件。

明眼的网友很快便质疑道：LLM训练怎么会出现灾难性事件？

即便是出现loss激增，也只需要回到上一个Checkpoint，调整一下，就可以接着训了。

除非是服务器全烧了，数据全都不剩了……

眼瞧着消息越传越广，xAI联创Greg Yang坐不住了。

对此，他用讽刺的语气调侃道：「对对对，Grok 3训着训着突然开始攻击办公室的保安了。」

另一位研究人员Heinrich Kuttler也接梗道：「对对对，情况非常糟糕！我们后来用nan（Not a Number，非数）把所有坏的权重都替换了一遍，才恢复。」

网友见状，也跟着玩起了梗。

要攻克黎曼猜想，还差些什么？

言归正传，让我们来仔细看一下，目前人类离攻克黎曼猜想还差几步。

如今，「黎曼猜想」就像是一座巍峨的高峰，165年来从未有人成功攀上。

它就像大海中的灯塔，为数学领域的发展指明方向：很多数论和复变函数领域的工作都基于黎曼猜想为真这个前提，因此一旦证明了黎曼猜想，许多其他工作也会得到完整的证明。

黎曼猜想起源于德国数学家高斯，他给出了一个公式，能够近似地预测出任意数字的素数个数。

在1859年，德国数学家波恩哈德·黎曼改进了高斯的公式，用涉及复变量函数演算的方法，得出一个原创公式。

这就是赫赫有名的「黎曼猜想」。

根据公式，能够画出无穷多个点。黎曼猜测，这些点有一定的排列规律，一部分在一条横线上，另一部分则在一条竖线上，所有点都在两条直线上排列，无一例外。

黎曼ζ函数可视化

理论上，无法证明是否所有的点都在这两条线上，但是，只要有一个点不在，就能推翻黎曼猜想！

现在，数学家们已经用计算机验证了最初的15亿个点，全部符合黎曼猜想。

2022年，张益唐发表111页论文，宣布本质上已证明朗道-西格尔零点问题——广义黎曼猜想的一种特殊且弱得多的形式。

虽然是一个弱一点的形式，但本质上已经是解决了朗道—西格尔零点问题。

用他的话说就是，关于零点猜想问题，「大海里的针我没捞到, 但海底地貌我探得差不多了」。

论文链接：https://arxiv.org/abs/2211.02515

2024年，陶哲轩力推MIT数学教授Larry Guth和牛津大学菲尔兹奖得主James Maynard的一篇新论文，认为两人在证明黎曼猜想方面取得了重大突破。

过程中，他们牺牲了一枚弃子，情况虽然变得更棘手，却反而离答案更近了。

论文地址：https://arxiv.org/abs/2405.20552

当然，尽管我们离完全解决这一猜想还很遥远。

AI的数学能力，到底什么水平？

这么说起来，目前的AI是否真的有证明黎曼猜想的能力呢？

我们可以来看看，爆火全网的AI证明工具AlphaProof，是如何做出IMO 2024的三道题的。

从某种角度来说，IMO数学竞赛题跟「猜想界的皇冠」黎曼猜想距离有多远，那离AI证明黎曼猜想也就有多远。

谷歌DeepMind研究人员，AlphaProof负责人Rishi Mehta最新博客中，介绍了AlphaProof在IMO中的最新表现。

4个月前，谷歌DeepMind团队发布了两个数学推理新模型AlphaProof和AlphaGeometry 2。

前者在破解IMO 2024六道竞赛试题中，做对了其中4道，而且每道题拿下了满分，相当于银牌选手水平（28分）。

而在最新进展文章中，Mehta揭示了AlphaProof在IMO 2024解题中最酷的想法。

在证明过程中，AlphaProof会使用到Lean 生成证明，并且每个Lean证明由一系列策略组成。

因此，Mehta将挑选出对应于这些想法的策略，针对AlphaProof解决的第 1、2和6题进行分析。

问题 1

问题

确定所有实数α，使得对于每一个正整数n，整数⌊α⌋+⌊2α⌋+⋯+⌊nα⌋是n的倍数。（注意，⌊z⌋表示小于或等于z的最大整数。例如，⌊−π⌋=−4 和⌊2⌋=⌊2.9⌋=2。）

解答

答案是所有偶整数。

需要注意的是，AlphaProof解决这些问题的方式是，提出许多解答候选者，尝试证明和反驳每一个，最终仅为正确答案找到证明。

这里看到的证明是，证明答案是偶整数集的那个。

证明偶整数满足给定性质显而易见，而这个证明的难点在于，证明除了偶整数之外没有其他α能够满足它。

AlphaProof以一种有趣（尽管复杂）的方式做到这一点：

它首先设定一个整数ℓ，使得 2ℓ=⌊α⌋+⌊2α⌋。这是成立的，因为通过将n=2代入给定性质，便可知道右侧是偶数。


existsλx L=>(L 2 two_pos).rec λl Y=>?_

L 2是在n=2的情况下使用给定性质。此外，AlphaProof经常将几个策略组合在一行中。一个更易理解的版本是：


constructor· intro x Lobtain ⟨l, Y⟩ := L 2 (by exact two_pos)

注意，我们还将α重命名为x。接下来，它声称（并继续证明）对于所有自然数 n，⌊(n+1)α⌋=⌊α⌋+2n(ℓ−⌊α⌋) ……（1）.


suffices: ∀ (n : ℕ),⌊(n+1)*x⌋ =⌊ x⌋+2 * ↑ (n : ℕ) * (l-(⌊(x)⌋))

从中，它能够得到α=2(ℓ−⌊α⌋)。


use(l-⌊x⌋)*2

这必须是一个偶整数（因为它是一个整数乘以 2）。

它证明这些事情的方式涉及一些相当复杂的简化。但设置（1）中的声明是使其余证明成立的令人印象深刻的一步。

Mehta称，对我来说，这一声明的动机相当不直观，而事实上一切都能奏效几乎是神奇的。

AlphaProof的完整解决方案如下：

上下滑动查看

问题 2

问题

找到所有满足条件的正整数对(a,b)，使得存在正整数g和N，使得gcd(an+b,bn+a)=g对于所有整数n≥N成立。

解答

AlphaProof正确给出 (1,1) 是唯一的解。

为了证明没有其他解可以成立，它要求我们考虑数ab+1。它声称（并随后证明）ab+1必须整除g。


suffices:b.1*b.2+1∣Y

需要注意的是，AlphaProof决定将对 (a,b) 重命名为b，以便它必须将元素引用为b.1和b.2。出于某种原因，它还选择将变量g重命名为 Y。

现在，选择n=Nϕ(ab+1)，可以得到(ab+1)∣(aNϕ(ab+1)+b) 和 (ab+1)∣(bNϕ(ab+1)+a)。

由于ab+1与a和b互质，因此可以应用欧拉定理，即

aϕ(ab+1)≡1(modab+1)

bϕ(ab+1)≡1(modab+1)

所以有ab+1∣1+b和ab+1∣1+a，由此可以得出a=b=1。

这一策略紧密地遵循了人类对此问题的证明。选择考虑ab+1是构建证明的巧妙想法。

AlphaProof 的完整解决方案如下：

上下滑动查看

问题 6

问题

设Q是所有有理数的集合。一个函数f:Q→Q被称为aquaesulian函数，如果对于每个x,y∈Q，满足以下性质：f(x+f(y))=f(x)+y或f(f(x)+y)=x+f(y)。

证明存在一个整数c，使得对于任何aquaesulian函数f，形式为f(r)+f(−r)的有理数最多有c个不同的值，并找出c的最小可能值。

解答

AlphaProof求解答案为c=2，证明过程分为两部分。

首先，它通过证明f(r)+f(−r)只能是0或某个单一的其他值来证明c≤2。这部分证明相当复杂，并巧妙地利用了给定的aquaesulian性质。

完成这一步后，c可以是1或2。

为了证明 c=2，AlphaProof提出了一个aquaesulian函数 f(x)=−x+2⌈x⌉，使得 f(r)+f(−r)取两个不同的值。


specialize V $ λ N=>-N+2 *Int.ceil N

然后它展示了f(−1)+f(1)=0和f(1/2)+f(−1/2)=2，这给出了需要的两个不同的值。

use Finset.one_lt_card.2$ by exists@0,V.1.mem_toFinset.2 (by exists-1),2,V.1.mem_toFinset.2 (by exists 1/2)

再次，很多内容被压缩到一行中，但通过exists -1和 exists 1/2展示了两个不同的值。

这是一个值得注意的函数构造，而且相当难以找到！在509名参与者中只有5人解决了 P6，值得注意的是Tim Gowers在评审这个解决方案时也尝试了一下，但没有找到一个能给出两个不同值的函数。

毕竟，IMO 2024第六题被称为「终极boss」，可不是那么轻易就解决掉的。

AlphaProof的完整解决方案如下：

上下滑动查看

AI距离千禧年难题，还有多远？

关于AI究竟能做什么程度的数学题，网友们也就此展开了讨论。

很多人认为，数学将是AI最先突破的领域之一，因为存在一个可用的既便宜又快速的反馈循环。

数学具有这样的特性：你可以以很少的成本，100%去验证你所做的事是否正确。

而相对于Lean之类的数学证明工具来说，AI验证实验的成本（时间、精力、金钱、安全）都要高出许多数量级。

有网友脑洞大开预测道：数学前沿运动的加速，值得人类建更多发电站！

不过，有一名数学家却在评论区现身说法，认为并不值得用AI这么做。

在他看来，计算时间/成本与问题复杂性之间的权衡，值得严肃考虑。

理论上讲，用形式语言找到证明是一件很轻松的事，因为只需一直搜索可能的证明，直到找到所需陈述结尾的证明就可以了。

计算的并行化程度如何，硬件能力有多大，AI工具对于数学问题的优化程度如何，都会决定AI用多长时间把证明做出来。

但要说专门建数据中心和发电站，把大量能源用于做数学题，他觉得没有必要——因为这并不是为了数学界的利益，而是硅谷大厂们自己的愿景。

不过如果进一步设想，现在的Alphaproof如果变成具有天文数字计算资源的定理证明器，我们或许有一天就可以证明「P/NP问题」。

因为，任何可证明的定理，都可以通过耐心地使用穷举法，列举所有可能的证明来找到。

如果存在一个有限的、格式良好的公式，该公式具有该定理作为结果，那么该定理就可以根据定义证明。

而如果说LLM有什么用处，那就是寻找出令人惊讶的联系，以人类搜索之外的方式，应用现有工具。

AI通过帮助人类解决引理、检查错误、形式化证明，来加速数学研究，在肉眼可见的未来几年内，即将成为现实。

而在去年，微软亚洲研究院、北大、北航等机构的研究人员，就已经通过97个回合的「苏格拉底式」严格推理，成功让GPT-4得出了「P≠NP」的结论。

而这97轮对话，可以说构建出了一个极难的NP完全问题，其中一些实例在时间复杂度低于O(2^n)（即穷举搜索）的情况下是不可解的，也就是说，证明结论为P≠NP。

论文地址：https://arxiv.org/abs/2309.05689

当然，这个证明过程并不严谨，作者用一个假设（假定任意CSP问题的精确算法都有一个等价的分治算法），绕过了P≠NP问题的难点。

其实，像Christian Szegedy这样的AI专家已经做过此类预测：到2026年底，AI将成为「超人数学家」，解决出黎曼猜想等问题。

离AI解决P/NP问题、黎曼猜想这样的的千禧年难题，还会有多远呢？

马斯克曾许诺，用10万块H100训练的Grok 3将在年底发布，应该会令人惊叹。

而如今，这个规模已经扩展到了20万台，再给一点时间，说不定Grok 3真能出奇迹。

参考资料：

https://x.com/TheGregYang/status/1858027187296936428

https://x.com/hyhieu226/status/1858028679747829769

https://rishimehta.xyz/2024/11/17/alphaproofs-greatest-hits.html

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652541447&idx=1&sn=7ce49006022e5e031b00c854bf5730a1

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉