首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

陶哲轩用AI证明方程理论，19天进度99.99%，论文将上线

科技 2024-10-19 06:02 河北

Datawhale分享

最新：陶哲轩，编辑：新智元

AI，已成为菲尔兹奖得主最得心应手的工具。

大约三周前，陶哲轩提出了一个协作项目——

结合专业和业余数学家、自动定理证明器、AI工具，以及证明辅助语言Lean，来描述与4694条幺半群（magmas）方程定理定理相关的蕴含图。

这些定理最多可以使用，四次幺半群运算来表达。

也就是说，需要确定4694条定理之间可能存在4694 * (4694 - 1) = 22028942蕴含的关系真伪。

地址：https://github.com/teorth/equational_theories/blob/main/data/equations.txt

这一项目在9月25日发布当天便启动了，如今，已经紧锣密鼓进行了19天。

刚刚，陶哲轩公布了项目的最新进展：

从已解决原始蕴含关系角度来看，截至目前，项目进度已完成99.9963%。
在需要解决的22028942个蕴含关系中，8178279个被证明为真，13854531个被证明为假，只有826个仍未解决。

而且，项目每一天的进展，他都记录到了个人日志中。

一起看看，陶哲轩如何通过「众包方式」，探索数学新领域。

方程理论项目，进度99.99%

在集合中，有249个蕴含关系推测为假，并且很快就证明了是假的。

出于编译效率的考量，他们并没有在Lean中记录每一个证明，只在其中证明了一个较小的592790个蕴含关系集合，然后通过传递性推导出更广泛的蕴含关系集合。

例如，利用如果方程X蕴含方程Y，方程Y蕴含方程Z，那么方程X蕴含方程Z的事实。

他们还很快利用蕴含图对偶对称性，对其进一步简化。

经过项目志愿者的不懈努力，陶哲轩称现在有了很多出色的可视化工具（尚未完成的），来检查蕴含图的各个部分。

比如，如下这张图描述了方程1491：x = (y ◇ x) ◇ (y ◇ (y ◇ x ))的所有结果。

陶哲轩将其称之为「Obelix law」。它还有一个伙伴Asterix law，即方程65：x = y ◇ (x ◇ (y ◇ x ))。

如下是，他们正在研究的所有方程定理的表格，以及它们蕴含/被蕴含定理数量。

地址：https://teorth.github.io/equational_theories/implications/

这些界面也在某种程度上与Lean集成。

比如，我们可以点击查看Obelix law蕴含方程359，陶哲轩将其作为题目，让大家进行挑战。他暗示，在Lean中仅用4行就可以完成证明。

在过去的几周里，他还了解到这些定理中，有许多之前已经出现在文献中。

由此，这里编制了这些方程的「导览」。

地址：https://github.com/teorth/equational_theories/wiki/Tour-of-selected-equations

例如，除了众所周知的交换律（方程43）、结合律（方程4512）之外，一些方程（方程14、方程29、方程381、方程3722、方程3744）曾出现在一些Putnam数学竞赛中；

方程168定义了一个引人入胜的结构，被称为「中心幺半群」（central groupoid）。特别是，由Evans和Knuth研究过，并且是Knuth-Bendix完成算法的关键灵感来源；

而方程1571则对指数为二的阿贝尔群（abelian groups）进行了分类。

根据Birkhoff完备性定理，如果一个方程定理蕴含另一个，那么它可以通过有限次重写操作来证明。

不过，所需的重写次数可能相当长。

上面提到的1491蕴含359的证明已经相当具有挑战性，需要四到五次重写。

另外，方程1689蕴含方程2的证明，更是极其冗长。尽管如此，标准的自动定理证明器，如Vampire，完全有能力证明绝大多数这些蕴含关系。

更微妙的是反蕴含关系，在这种情况下必须证明定理X不蕴含定理Y。原则上，只需要展示一个遵循X但不遵循Y的幺半群即可。

在很大一部分情况下，他们可以简单地搜索小型有限幺半群——比如两个、三个或四个元素的幺半群——来获得这种反蕴含关系。

但这些并不足够，事实上，他们只知道有些反蕴含关系，只能通过构造无限幺半群来证明。

比如，现在已知的Asterix law不蕴含Obelix law，但所有反例必然是无限的。

有趣的是，已知的构造方法与集合论中著名的forcing技术有一些相似之处，即不断向（部分）幺半群添加「通用」元素，以forcing存在具有某些特定属性的反例。

不过，这里的构造肯定比集合论构造简单得多。

他们还从「线性」幺半群x ◇ y = ax + by构造中取得了有益的进展。这些构造存在于交换环和非交换环中。

与「汇聚」（confluent）方程定理相关的自由幺半群，以及更普遍的具有完整重写系统的定理。

因此，未解决的蕴含关系数量继续稳步减少。

遵循标准GitHub实践，论文很快上线

经过相当繁忙的后端设置和「灭火」（putting out fires）工作后，项目现在运行得相当顺利。

项目在Lean Zulip频道上协调，所有贡献都通过GitHub上的拉取请求（pull request）过程进行，并通过基于问题的GitHub项目进行跟踪。

另外两位维护者Pietro Monticone、Shreyas Srinivas为其提供了宝贵的监督。

与之前的PFR形式化项目相比，这次项目的工作流程遵循了标准的GitHub实践，大致如下：

如果在Zulip讨论过程中，明确需要完成某些特定任务以推进项目（比如，在Lean中形式化讨论线程中已经推导出的蕴含关系证明），就会创建一个「问题」（通常由陶哲轩自己或其他维护者创建），其他贡献者可以「认领」这个问题，单独工作（使用主GitHub仓库的本地副本）。

然后提交「拉取请求」将他们的贡献合并回主仓库。这个请求随后可以由维护者和其他贡献者审查，如果获得批准，就会关闭相关问题。

更广泛地说，他们正努力记录这个设置中的所有过程和经验教训。

这将成为即将发表的关于这个项目的论文的一部分，现正处于初步规划阶段，可能会包括数十位作者。

陶哲轩表示，自己对项目取得的进展非常满意，而且许多最初的期望已经实现。

在科学方面，他们发现了一些新的技术和构造，用来证明一个给定的方程理论不蕴含另一个；他们还发现了一些具有有趣特征的奇特代数结构，如Asterix和Obelix对，是通过系统性搜索方式被发现的。

参与者方面，非常多样化，从各个职业阶段的数学家、计算机科学家，到感兴趣的学生和业余爱好者。

此外，Lean平台在整合人工生成和机器生成的贡献方面表现良好。

机器生成在数量上是迄今为止最大的贡献来源，但许多自动生成往往是基于人类最初在特殊情况下发现的，然后由项目的不同成员进行推广和形式化。

在讨论线程中，他们还进行了许多非正式的数学论证，但这些论证往往会迅速在Lean中形式化，消除了关于正确性的争议就。

进而，研究人员可以转而专注于如何最好地部署各种经过验证的技术，来解决剩余的蕴含关系。

AI以一种辅助的方式被使用

原本，陶哲轩期待看到现代AI工具，能够在项目中做出重大贡献。

但实际上，它们以一种辅助、次要的方式被使用。

比如，通过GitHub Copilot等工具来加速编写Lean证明、LaTeX文档框架、其他软件代码。

此外，他们的几个可视化工具，也主要是使用Claude等大模型共同编写的。

然而，对于解决蕴含关系这一核心任务，更「传统」的自动定理证明器表现更好。

不过，目前剩余的大约700个蕴含关系，大多数不适合使用传统工具来处理。

有几个蕴含关系（特别是涉及Asterix和Obelix那些），已经让人类专家困惑多日。

陶哲轩认为，在解决剩余的、更困难的蕴含关系时，现代AI可能会发挥更重要的作用。

参考资料：

https://terrytao.wordpress.com/2024/10/12/the-equational-theories-project-a-brief-tour/

一起“点赞”三连↓

http://mp.weixin.qq.com/s?__biz=MzIyNDA1NjA1NQ==&mid=2651043842&idx=1&sn=d69249a80513e65945f21d6c476f6a2d

分享组队学习的点点滴滴，和学习者一起成长！

最新文章

一篇具身智能的最新全面综述！（上）

Openjudge1.8.10 矩阵转置

火了！一份AI领域的经典论文清单！

Openjudge1.11.07 和为给定数

2025 QS 亚洲大学排名公布！197所中国高校上榜！

Openjudge1.7.20 删除单词后缀

谷歌2024博士奖学金名单公布

Openjudge1.10.09 明明的随机数

微软 AI CEO 清华演讲全文（建议收藏）

Openjudge1.9.08 白细胞计数

导师：自己每天科研工作近10小时，都觉得不够。研究生们：每天工作不够5小时，拿什么去竞争？

Openjudge1.7.17 字符串判等

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

Openjudge1.11.10 河中跳房子

Openjudge1.8.07 矩阵归零消减序列和

线下百校联动，AI线下共学活动开放报名

组队学习首次开放许愿啦！下个月想学什么，听你的

Datawhale公益组，帮孩子找到兴趣和热爱

十一月组队学习来了！

《OPEN AI通识课》高校共学活动：开放报名！

《OPEN AI通识课》重磅发布！Datawhale 联合浙江大学智海 Mo 平台

又一外企巨头在中国裁员了

陶哲轩用AI证明方程理论，19天进度99.99%，论文将上线

Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

2025泰晤士世界大学排名公布！

深度｜李飞飞：我不知道什么是AGI

十月组队学习来了！🥳

国网河北省电力有限公司2025年高校毕业生提前批招聘校园宣讲计划安排

2024年CCF 科技创业大赛（TEC 2024）邀请函

特变电工2025校园招聘来了！

国家能源集团2025校园招聘来了！

组队竞赛：九月实验室编程竞赛计划与反馈要求

开学第一场组队学习来了！

【第61期】组队学习课程：Tiny-universe：手搓大模型

【第61期】组队学习课程：吃瓜教程

LSGO软件技术团队编程竞赛（八月赛）成绩汇报

航天工程大学人工智能信息处理课题组招博士

八月实验室编程竞赛计划与反馈要求

南大第一，北邮领先，AI 夏令营第四期正式报名！

LSGO软件技术团队编程竞赛（七月赛）成绩汇报

AI大神李沐回归B站了！

Datawhale优秀助教团队

真滴优秀！！！

7月实验室编程竞赛计划与反馈要求

提供实习证明和奖学金！面向本科生、研究生的 AI 夏令营来了！

Datawhale出品：《GLM-4 大模型部署微调教程》发布！

实验室编程竞赛（六月赛）成绩汇报

李开复：零一万物坚决做to C，坚决不做赔钱的to B

实验室数据科学竞赛计划与反馈要求

首届学生“包就业”！深圳理工大学600分以上可报

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉