AI解决数学问题的两个实例

文摘科学 2024-12-07 08:18 加拿大

https://www.zhihu.com/question/4534672056

大老李注：本文原为我对知乎问题：“据报道Grok3证明黎曼猜想是一个虚假案例。想问一下目前AI在破解数学难题上有哪些真实案例？”的回答。现转载于此。

说两个我知道的案例。

一个是陶哲轩最近组织的集体项目：等式理论^[1]（Equational theories project）。这个项目的目标是搞清原群（Magma）中，4个运算符以内的等式关系之间的推导关系。

学过群理论的都知道有一系列群公理，其中有结合律：

抛开群的性质，仅考虑一个集合和某个运算，就构成一个“原群”。其中我们可以写出很多的“等式”，比如，借用陶哲轩在博客^[2]上给出的例子：

等式1：
等式2：
等式3：
等式4：
等式5：
等式6：
等式7：
等式8：
等式9：
等式10：
等式11：

我们可以问，以上等式中，有何种蕴含关系？最终答案是这样一张哈斯图（Hasse diagram）：

其中的意思，就是从a可以推出b。“x=y”的意思是任何两个变量都相等，群中也就只有一个元素，所以是最强的等式。其中有些推导关系并不那么明显，比如你可以试试看证明，从等式4：证明等式7：（答案在陶哲轩的博文^[3]中）。

以上等式中最多出现了3个运算符。如果考虑最多四个运算符的等式，则可以计算出一共有4694个这样的等式，共产生个可能的蕴含关系。

等式理论项目的目标就是通过群体协作方法，把每一个可能的箭头关系的证明任务分配到个人。与此同时，个人需要写出正确的[Lean proof verification](https://en.wikipedia.org/wiki/Lean_(proof_assistant "Lean proof verification")) code，证明每个箭头关系成立或不成立。过程中，可以利用AI进行代码补全，生成需要的Lean code。

此项目从2024年9月25日启动，到今天（2024年12月5日），完成进度已达99.99986%，仅剩30个关系未能证明：

产生的一个局部哈斯图如下，括号中是等式在项目中的序号：

以下是一个关于等式1692的未证明的蕴含例子。等式1692是：

已证明等式1692蕴含等式1：，证明代码是：

@[equational_result]
theorem Equation1629_implies_Equation1 (G: Type _) [Magma G] (h: Equation1629 G) : Equation1 G := by
  intro _
  rfl

但还未证明其是否蕴含等式23：。更多的项目成果可以浏览：https://teorth.github.io/equational_theories/

此项目不能完全算是AI的成果，因为AI的代码补全能力虽然很强，但很多细节还是需要人工干预和修正，人和AI的贡献大概各50%。所以，这是一个很好的人机合作领域，我觉得这种类型的工作也是近期AI能够在数学领域所能作的主要贡献。

第二个例子是2023年12月，Deepmind公司推出的Funsearch^[4]。

Deepmind使用Funsearch，找到了一个新的算法，使得帽集问题（Cap Set Problem^[5]）的下限从提高到了。

(上图：a中，可以看到在n=8时，Funsearch的算法找到了比已知结果更大的cap set。b是Funsearch产生的关键算法。c为由funsearch的算法启发，直接构建512个元素的Cap set的函数)

Funsearch也在bin packing，Admissible sets等问题上也有所突破。Funsearch的主要原理就是不停地让AI写代码，不断更新算法，以期找出比当前算法更好的版本。

它的局限性也很明显，即只能处理一些可以用算法解决的问题，并且它的结果只能产生更好的上下界，但无法得知是否是确界。

另外一个问题是，它很费钱。因为Funsearch需要不停调用LLM API，所以要么你有一个非常强劲的机器，可以在本地运行一个大语言模型API，要么就需要调用商用的API。无论哪种方案，都很费钱，不适合个人使用。

以上就是我知道的，AI在解决数学难题中，有所贡献的两个例子。目前AI所能解决的数学难题（指人类还不能解决的）的类型局限性非常大，距离AI能独立解决数学难题的目标还非常遥远。但是，在人机配合的情况下，现在的AI已经能发挥非常好的作用，特别是在当可以把某些大难题的划分为非常多的小问题时（比如等式关系项目），AI就会好用，可以大大节省时间。

参考资料

[1]

等式理论: https://github.com/teorth/equational_theories

[2]

博客: https://terrytao.wordpress.com/2024/09/25/a-pilot-project-in-universal-algebra-to-explore-new-ways-to-collaborate-and-use-machine-assistance/

[3]

博文: https://terrytao.wordpress.com/2024/09/25/a-pilot-project-in-universal-algebra-to-explore-new-ways-to-collaborate-and-use-machine-assistance/

[4]

Funsearch: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

[5]

Cap Set Problem: https://zhuanlan.zhihu.com/p/684485418

大老李聊数学

“大老李聊数学”（喜马拉雅FM自媒体节目）粉丝公众号，不定期发布节目相关知识，讨论各类趣味数学问题。

最新文章

每周一题：丝带理论

小乐数学科普：挂谷猜想专题系列——新数系将几何问题指向实数解——译自Quanta Magazine量子杂志

每周数论题(43)

小乐数学科普：欣赏模形式，数学的“第五种基本运算”——译自Quanta Magazine量子杂志

每周一题：平方和立方

发现轨道之美-CUBORO初体验

每周数论题(42)

小乐数学科普：Tony Phillips教授的数学读报评论2024-11

我的2024十大数学“发现”

每周一题：石头剪子布

2024年王大叔最喜欢的益智玩具十大排行榜（01-05）

2024年王大叔最喜欢的益智玩具十大排行榜（06-10）

一组4玩家的非传递骰子

每周数论题(41)

积木中的数学之二-用 TomTecT 积木做的尝试

每周一题：方与圆

创造游戏乐趣的人生-席德·梅尔回忆录延伸故事（连载1）

小乐数学科普：计算机科学家如何重新构想数学证明——《量子杂志》每周数学随笔

每周数论题(40)

小乐数学科普：请尽情触摸你无法抗拒抓住的数学——译自EMS Magazine

每周一题：欧姆定律

“智商爆增”！狭义相对论科普电影《寻秘自然：时间的形状》首映即获追捧

锻炼逻辑分析能力-拼接大师Tangramino初体验

每周数论题(39)

（多图慎入）用Tantrix探索游戏玩三重对称-复活一个被低估的拼图游戏

每周一题：平方差

小乐数学科普：2024年度《量子杂志》主编精选的9条最佳语录

每周数论题(38)

小乐数学科普：当1+1+1等于1时——James Propp教授专栏

每周一题：骰子和卡牌

悬赏100元-智玩天地电子杂志第27期首发

每周数论题(37)

拼搭积木的终点是混搭-蒙德里安艺术磁力片-廿巧板-TomTect

小乐数学科普：2025年AMS Steele斯蒂尔数学阐述奖授予詹姆斯·S·米尔恩（James S. Milne）

每周一题：连续和

等式理论中的一个证明例子

每周数论题(36)

小乐数学科普：使用新的开源跨学科数据集训练AI人工智能模型像科学家那样思考

AI解决数学问题的两个实例

从地平论聊到反智主义

每周一题：三个数学家囚犯

小乐数学科普：艾伦·海切尔（Allen Hatcher）荣获首届（2025）AMS斯坦因变革性阐述奖

蒙德里安创意无限-小记王大叔的分享课

68年历史的移动沙发问题被解决

分享购买日本puzzle智玩的网站和实体店资源

每周数论题(35)

趣文赏析：有限猴子定理的数值测算

探测器列传：15.木星之旅

在艺术中发现数学-王大叔带你去西岸美术馆看展之一

每周一题：四灯两按钮

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉