来源:量子位 | 公众号 QbitAI
鱼羊 一水 发自 凹非寺
57天,人类和AI合作搞定了4694个等式之间22028942个蕴含关系!
大神陶哲轩激动宣布:等式理论计划,成功。
“等式理论计划”,由陶哲轩本人在2024年9月25日发起,目的是探索按蕴含关系排序的原群(magma)等式理论空间。
特别的是,在这个项目里,陶哲轩不仅集合了人类数学家的力量,还把AI工具纳入了合作者的范围,包括ChatGPT、Claude和GitHub Copilot。
项目发起当日就正式启动,仅仅9天,项目进度就达到了99.866%。
而现在,在2200万+个需要证明的蕴含关系中,8178279个已被证实,13855193个已被证伪,仅有162个还悬而未决。
按陶哲轩的说法,就是离“宣布完全成功”基本只是“时间问题”:
因此,我们现在已经开始着手撰写论文了。
什么是“等式理论计划”
还是先来扒一扒陶哲轩这回究竟是整了个什么样的活儿。
简单说,“等式理论计划”是指:
而现在,通过AI工具以及Lean这样的证明辅助语言,数学项目的大规模协作变得可能。
打前阵的就有开源社区寻找梅森素数的成功尝试,在这个代号GIMPS的志愿项目中,任何拥有强大PC或GPU的人都可以加入寻找梅森素数。
交换恒等式和常量恒等式之间是否存在等价关系?
a∗b(一次操作) (𝑎∗𝑏)∗𝑐(a∗b)∗c(两次操作) 𝑎∗(𝑏∗(𝑐∗𝑑))a∗(b∗(c∗d))(三次操作) ((𝑎∗𝑏)∗𝑐)∗(𝑑∗𝑒)((a∗b)∗c)∗(d∗e)(四次操作)
其中𝑎,𝑏,𝑐,𝑑,𝑒都是集合M中的元素,每次∗的使用都算作一次magma操作。
这样的等式定律有4694个,由于每个定律都可能蕴含其他4693个定律(一个定律不能蕴含自身),因此总共有4694*(4694-1) = 22,028,942个可能的蕴含关系需要被证明或反驳。
这里的蕴含关系包括“蕴含”和“反蕴含”,其中“蕴含”关系又涉及到两种类型:
已证明的蕴含:在Lean中已经过验证 推测的蕴含:尚未在Lean中验证,可能由人或计算机生成
9天进度99.866%,大模型有用但“表现低于预期”
简单总结“等式理论计划”的进度,就是一个字:快。
陶哲轩本人都说:
这个项目的进度远超我的预期。
有多快?
仅仅48小时,很大一部分蕴含关系就已“解决在望”。
项目启动第5天,项目参与者们已经从最初的约2200万条蕴含关系中解决了大量简单蕴含,只剩下约300万的数量尚待解决。
项目启动第9天,随着首次重大重构的完成——合作者们改进了magma的运算符号,以使Lean代码的编译速度显著加快,以及一些研究问题的推进,项目完成度一举从87%跃升到了99.866%。
第19天,项目进度来到99.9963%。陶哲轩在他的博客文章中提及,写论文的事已经提上日程,并且可能包含数十名作者。
GitHub显示该项目有45位贡献者:
到了11月21日,也就是项目第57天,随着主项目最后一个未解决的蕴含关系被搞定(待验证),“等式理论计划”目标已宣告达成。
论文可以正式开写了。
陶哲轩透露,论文的框架早已拟好,但后续还需要大量工作来对其进行更新,并转换为可以提交的形式。
日志中也详细谈到了大模型工具发挥的作用。
在第一天,陶哲轩就对GitHub Copilot大加赞赏:
GitHub Copilot在处理日常任务时非常有用,比如输入需要证明的新Lean定理,或者更新蓝图来整合最新的PR结果。
他具体举了个例子:要将Lean转换为LaTeX,把Lean代码粘贴为注释,开始敲LaTeX,GitHub Copilot就会自动补全剩下的内容。
不过,陶哲轩也坦率表示,大模型们在项目中的表现“低于预期”,更多的时候,数学家们用到的还是“经典AI”,比如自动定理证明器Vampire等。
他还提到:
项目的参与者非常多元化,包括处在职业生涯各个阶段的数学家和计算机科学家,学生和业余爱好者。Lean在整合人类和机器生成的贡献方面表现出色。机器生成的部分在数量上是贡献的最主要来源,不过,许多自动生成的结果最初是人类在特殊情况下得出的,之后被进一步推广和形式化。
希望项目中的蕴含关系能够作为未来AI数学工具的基准测试。
除了陶哲轩之外,项目的主要维护人还有意大利数学家Pietro Monticone和Shreyas Srinivas。
△Shreyas Srinivas主页
https://github.com/teorth/equational_theories
参考链接:
[1]https://mathstodon.xyz/@tao/113522452070896956
[2]https://teorth.github.io/equational_theories/
阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”
截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告
上下滑动查看更多