新闻提要谷歌AI一分之差痛失IMO奖牌！19秒做一题碾压人类选手

美呗贤果 · 发表于 2024-11-6 20:12:23

就在刚刚，谷歌DM比较新的数学模型捧得了IMO奥数银牌！它不仅以满分成绩做出了6道题中的4道，距离奖牌只有1分之差，而且在第4题上只用了19秒，解题质量和速度惊呆了评分的人类评委。
AI，已经斩获了IMO奥数银牌！
就在刚刚，谷歌DM宣布：今年国际数学奥林匹克竞赛的真题，被自家的AI系统做出来了。
其中，AI不仅成功完成了6道题中的4道，而且每道题都获得了满分，相当于是银牌的比较高分――28分。
这个成绩，距离奖牌只有1分之遥！

609参赛选手中，拿到奖牌的只有58人
在正式比赛中，人类选手会分两次提交答案，每次限时45小时。
有趣的是，AI只用了几分钟便答出了其中一道，但剩下的问题却花了整整天时间，可以说是严重超时了。

这次立下大功的，是两款AI系统――AP和AG 2。
划重点：2024 IMO并不在这两个AI的训练数据中。
其，早在今年1月份，谷歌DM的首代AG就登上了N。当时，它做出了IMO 30个几何题中的25道。
AI工程师背后创始人之一S W（IOI枚奖牌得主）感慨道，「当我还是个孩子的时候，奥林匹克竞赛就是我的全部。从来没有想过，仅仅10年后，它们就被AI解决了」。

今年的IMO竞赛上，共有六道赛题，涉及代数、组合学、几何和数论。六道做出四道，让我们感受一下AI的水平――

AI的数学推理能力，震惊评分教授
我们都知道，以前的AI在解决数学问题上一直捉襟见肘，原因在于推理能力和训练数据的限制。
而今天携手登场的两位AI选手，则打破了这种限制。它们分别是――
– AP，基于强化学习的形式数学推理新系统
– AG 2，第二代几何解题系统
两位AI给出的答案，由著数学家T G教授（IMO奖牌得主和菲尔兹奖得主）和J M博士（两次IMO奖牌得主、IMO 2024问题选择会主席），根据规则进行评分。
比较终，AP正确做出两个代数题和一个数论题，其中一个比较难的问题，在今年IMO中只有5人类参赛者做了出来；AG 2则做出了一道几何题。
没有被攻克的，只有两道组合数学题。
T G教授在评分的过程中，也被深深地震撼了――
程序能够提出这样一个非显而易见的解法，在令人印象深刻，远超出我对当前技术水平的预期。

AP
AP是一个能够在形式化语言L中证明数学命题的系统。
它结合了预训练的大语言模型和AZ强化学习算法，后者曾自学掌握了国际象棋、将棋和围棋。
形式化语言的一个关键势，就是可以对涉及数学推理的证明进行形式化验证。然而，由于人类编写的相关数据量非常有限，它们在机器学习中的应用一直受到限制。
相比之下，基于自然语言的方法尽管可以访问大量数据，但却可能产生似是而非、但不正确的中间推理步骤和解决方案。
为了克服这一点，谷歌DM研究者通过微调G模型，将自然语言问题陈述自动翻译成形式化陈述，建立了一个包含不同难度的形式化问题的大型库，从而在两个互补领域之间架起桥梁。
解题时，AP会生成候选的解决方案，并通过在L中搜索可能的证明步骤，来证明或反驳它们。

每个被找到并验证的证明，都被用于强化AP的语言模型，让它可以在后续解决更难的问题。
为了训练AP，研究者证明或反驳了几百万个问题，涵盖了从比赛前几周到比赛期间广泛的难度和数学主题领域。
在比赛期间，他们还应用了训练循环，通过强化自生成的比赛问题变体的证明，直到找到完整的解决方案。

AP强化学习训练循环的流程信息图：大约一百万个非正式数学问题由形式化络翻译成形式化数学语言；接着，求解络通过搜索这些问题的证明或反驳，并利用AZ算法逐步训练自己，以解决更具挑战性的问题
AG 2
AG的升级版AG 2，是一个神经符号混合系统，基于G的语言模型从头开始训练。
基于比上一代多了一个数量级的合成数据，它能够做出难度更高的几何问题，包括涉及物体运动、角度、比例和距离方程等等。
此外，它还采用了比前一代两个数量级的符号引擎。当遇到新问题时，它会用一种新颖的知识共享机制，使不同搜索树的高级组合能够解决更复杂的问题。
在今年参赛IMO之前，AG 2已经战绩累累：它能做出过去25年IMO几何赛题中的83%，而首代只能做出53%。
在这届IMO中，AG 2的神勇速度更是震惊了众人――在接收到形式化问题的19秒内，它就把问题4做出来了！

问题4要求证明∠KIL和∠XPY之和等于180°。AG 2建议在BI线上构造一个点E，使得∠AEB=90°。点E有助于确定AB的中点L，形成了许多类似的角形对，如ABE ~ YBI和ALE ~ IPC，从而证明结论
AI的解题过程
值得一提的是，这些问题首先会被人工翻译成正式的数学语言，然后才会投给AI。
P1
一般来说，每届IMO试题中首题（P1）相对来说，是比较容易的。
友表示，「P1仅需要高中数学知识就够了，人类选手通常会在60分钟内完成」。

IMO 2024首题主要考察了数α的性质，并要求找出满足特定条件的数α。

AI给出了正确答案――α是偶整数。那么，它具体是如何解答的呢

解题首步，AI先给出了一个定理，左右两边集合相等。
左边集合表示，所有满足条件的数α，对于任何正整数，能整除从1到的?*α?；右边集合表示，存在一个整数，是偶数，数α等于。

接下来的证明中，分为两个方向。
首先证明右边集合，是左边集合的子集（简单方向）。

然后，再证明左边集合，是右边集合的子集（困难方向）。

直到代码结束时，AI提出了一个关键等式?(+1)*α? = ?α?+2(-?α?)，使用等式来证明α必须是偶数。

比较后，DM总结了AI在解题过程中，依赖的个公理：、C，以及Q。

以下是P1的完整解题过程：G-DMB-2024-P1
上下滑动查看
P2
第二题考察的是，正整数对(,)的关系，涉及到比较大公约数的性质。

AI求解的答案是：

定理是对于满足特定条件的正整数对(,)，其集合只能包含(1,1)。

AI在如下的解题过程中，采取的证明策略是，首先证明(1,1)满足给定条件，然后再证明这是仅有的解。
证明(1,1)是比较终解，使用=2，N=3。

证明如果(,)是解，那么+1必须整除。

在这一过程中，AI使用了欧拉定理，以及模运算的性质进行推理。

比较后，去证明==1是仅有可能的解。

如下是P2的完整解题过程：-DMB-2024-P2
上下滑动查看
P4
P4是一道几何证明题，要求去证明一个特定的几何角度关系。

如上所述，这是由AG 2在19秒内完成答题，创新纪录。
根据所给的解决方案，与一代AG一样，所有解决方案中的辅助点都是由语言模型自动生成的。
证明中，所有的角度追踪都使用了高斯消元法（G ），(AB)?(CD)等于从AB到CD的有向角度（以π为模）。
解题过程中，AI会手动标注相似角形和全等角形对（以红色标注）。
接下来，就是AG的解题步骤了，采用了「反证法」去完成。

先用L完成需要证明命题的形式化，以及可视化几何构造。

证明中的关键步骤，如下所示。

完整解题过程参见下图：-DMB-2024-P4
上下滑动查看
P6
IMO第六题便是「终极」，探讨了函数的性质，要求证明关于有理数的特定结论。

AI求解，=2。

先来看定理声明是，定义了「A函数」的性质，并声明对于所有这样的函数，()+(-)的取值集合比较多有2个元素。

证明策略是，首先证明对于任何A函数，()+(-)的取值集合比较多有2个元素。然后构造一个具体的A函数，使得()+(-)恰好有2个不同的值。

证明当(0)=0时，()+(-)比较多取两个不同的值，并证明不可能存在(0)≠0的A函数。

构造函数()=-+2??，并证明它是A函数。

比较后，再去证明对于这个函数，(-1)+(1) =0和(12)+(-12)=2是两个不同的值。

以下是完整解题过程：-DMB-2024-P6
上下滑动查看
能做奥数题，但能分清911和99谁大吗
斯坦福大学和红杉的研究员A G肯定了这次AI突破的意义――
关键的是，比较新IMO试题不包含训练集中。这一点很重要，说明AI能够处理全新的、未见过的问题。
而且，被AI成功解出的几何问题，由于涉及空间性质（需要直观思维和空间想象力），历来都被认为是极具挑战性的。

英伟达高级科学家J F则发长文表示，大模型是神秘的存在――
它们既能在数学奥林匹克竞赛中获得银牌，又会在「911和99哪个数字更大」这样的问题上频频出错。
不仅是G，就连GPT-4、C-35、L-3都法100%正确回答。

通过训练AI模型，我们正在探索超越自身智能的广阔领域。在这个过程中，我们发现了一个非常奇特的区域――一个看起来像地球，却充满诡异山谷的系外行星
这看起来很不合理，但我们可以用训练数据分布来解释：
AP和AG 2，是在形式化证明和特定领域的符号引擎上完成训练。在某种程度上，它们在解决专业的奥林匹克竞赛问题更出色，即使它们基于通用LLM构建的。而GPT-4的训练集中，混杂了大量的GH代码数据，可能远远超过数学数据。在软件版本中，「911 99」，可能严重扭曲了数据分布。因此，这个错误在某种程度上是可以理解的。
谷歌开发者负责人表示，能够解决困难的数学、物理问题的模型，是通向的关键路径，而今天我们在这条道路上又迈出了一步。

另有友表示，这一周信息量太大了。

业内人士认为，ai大模型的发展标志着整个行业在快速稳步的前进中。欢迎来到我们的AI写作免费助手工具集合平台，这里提供了多种AI写作工具，包括免费AI写作工具、AI论文写作、AI查重、AI提示词、AI文献阅读、语法检查、同义词查询、写作模板等，旨在帮助您轻松提升写作效率和质量。https://www.aigc.cn/large-models

		自动登录	找回密码
密码			立即注册