|
就在刚刚,谷歌DM比较新的数学模型捧得了IMO奥数银牌!它不仅以满分成绩做出了6道题中的4道,距离奖牌只有1分之差,而且在第4题上只用了19秒,解题质量和速度惊呆了评分的人类评委。
AI,已经斩获了IMO奥数银牌!
就在刚刚,谷歌DM宣布:今年国际数学奥林匹克竞赛的真题,被自家的AI系统做出来了。
其中,AI不仅成功完成了6道题中的4道,而且每道题都获得了满分,相当于是银牌的比较高分――28分。
这个成绩,距离奖牌只有1分之遥!
609参赛选手中,拿到奖牌的只有58人
在正式比赛中,人类选手会分两次提交答案,每次限时45小时。
有趣的是,AI只用了几分钟便答出了其中一道,但剩下的问题却花了整整天时间,可以说是严重超时了。
这次立下大功的,是两款AI系统――AP和AG 2。
划重点:2024 IMO并不在这两个AI的训练数据中。
其,早在今年1月份,谷歌DM的首代AG就登上了N。当时,它做出了IMO 30个几何题中的25道。
AI工程师背后创始人之一S W(IOI枚奖牌得主)感慨道,「当我还是个孩子的时候,奥林匹克竞赛就是我的全部。从来没有想过,仅仅10年后,它们就被AI解决了」。
今年的IMO竞赛上,共有六道赛题,涉及代数、组合学、几何和数论。六道做出四道,让我们感受一下AI的水平――
AI的数学推理能力,震惊评分教授
我们都知道,以前的AI在解决数学问题上一直捉襟见肘,原因在于推理能力和训练数据的限制。
而今天携手登场的两位AI选手,则打破了这种限制。它们分别是――
– AP,基于强化学习的形式数学推理新系统
– AG 2,第二代几何解题系统
两位AI给出的答案,由著数学家T G教授(IMO奖牌得主和菲尔兹奖得主)和J M博士(两次IMO奖牌得主、IMO 2024问题选择会主席),根据规则进行评分。
比较终,AP正确做出两个代数题和一个数论题,其中一个比较难的问题,在今年IMO中只有5人类参赛者做了出来;AG 2则做出了一道几何题。
没有被攻克的,只有两道组合数学题。
T G教授在评分的过程中,也被深深地震撼了――
程序能够提出这样一个非显而易见的解法,在令人印象深刻,远超出我对当前技术水平的预期。
AP
AP是一个能够在形式化语言L中证明数学命题的系统。
它结合了预训练的大语言模型和AZ强化学习算法,后者曾自学掌握了国际象棋、将棋和围棋。
形式化语言的一个关键势,就是可以对涉及数学推理的证明进行形式化验证。然而,由于人类编写的相关数据量非常有限,它们在机器学习中的应用一直受到限制。
相比之下,基于自然语言的方法尽管可以访问大量数据,但却可能产生似是而非、但不正确的中间推理步骤和解决方案。
为了克服这一点,谷歌DM研究者通过微调G模型,将自然语言问题陈述自动翻译成形式化陈述,建立了一个包含不同难度的形式化问题的大型库,从而在两个互补领域之间架起桥梁。
解题时,AP会生成候选的解决方案,并通过在L中搜索可能的证明步骤,来证明或反驳它们。
每个被找到并验证的证明,都被用于强化AP的语言模型,让它可以在后续解决更难的问题。
为了训练AP,研究者证明或反驳了几百万个问题,涵盖了从比赛前几周到比赛期间广泛的难度和数学主题领域。
在比赛期间,他们还应用了训练循环,通过强化自生成的比赛问题变体的证明,直到找到完整的解决方案。
AP强化学习训练循环的流程信息图:大约一百万个非正式数学问题由形式化络翻译成形式化数学语言;接着,求解络通过搜索这些问题的证明或反驳,并利用AZ算法逐步训练自己,以解决更具挑战性的问题
AG 2
AG的升级版AG 2,是一个神经符号混合系统,基于G的语言模型从头开始训练。
基于比上一代多了一个数量级的合成数据,它能够做出难度更高的几何问题,包括涉及物体运动、角度、比例和距离方程等等。
此外,它还采用了比前一代两个数量级的符号引擎。当遇到新问题时,它会用一种新颖的知识共享机制,使不同搜索树的高级组合能够解决更复杂的问题。
在今年参赛IMO之前,AG 2已经战绩累累:它能做出过去25年IMO几何赛题中的83%,而首代只能做出53%。
在这届IMO中,AG 2的神勇速度更是震惊了众人――在接收到形式化问题的19秒内,它就把问题4做出来了!
问题4要求证明∠KIL和∠XPY之和等于180°。AG 2建议在BI线上构造一个点E,使得∠AEB=90°。点E有助于确定AB的中点L,形成了许多类似的角形对,如ABE ~ YBI和ALE ~ IPC,从而证明结论
AI的解题过程
值得一提的是,这些问题首先会被人工翻译成正式的数学语言,然后才会投给AI。
P1
一般来说,每届IMO试题中首题(P1)相对来说,是比较容易的。
友表示,「P1仅需要高中数学知识就够了,人类选手通常会在60分钟内完成」。
IMO 2024首题主要考察了数α的性质,并要求找出满足特定条件的数α。
AI给出了正确答案――α是偶整数。那么,它具体是如何解答的呢
解题首步,AI先给出了一个定理,左右两边集合相等。
左边集合表示,所有满足条件的数α,对于任何正整数,能整除从1到的?*α?;右边集合表示,存在一个整数,是偶数,数α等于。
接下来的证明中,分为两个方向。
首先证明右边集合,是左边集合的子集(简单方向)。
然后,再证明左边集合,是右边集合的子集(困难方向)。
直到代码结束时,AI提出了一个关键等式?(+1)*α? = ?α?+2(-?α?),使用等式来证明α必须是偶数。
比较后,DM总结了AI在解题过程中,依赖的个公理:、C,以及Q。
以下是P1的完整解题过程:G-DMB-2024-P1
上下滑动查看
P2
第二题考察的是,正整数对(,)的关系,涉及到比较大公约数的性质。
AI求解的答案是:
定理是对于满足特定条件的正整数对(,),其集合只能包含(1,1)。
AI在如下的解题过程中,采取的证明策略是,首先证明(1,1)满足给定条件,然后再证明这是仅有的解。
证明(1,1)是比较终解,使用=2,N=3。
证明如果(,)是解,那么+1必须整除。
在这一过程中,AI使用了欧拉定理,以及模运算的性质进行推理。
比较后,去证明==1是仅有可能的解。
如下是P2的完整解题过程:-DMB-2024-P2
上下滑动查看
P4
P4是一道几何证明题,要求去证明一个特定的几何角度关系。
如上所述,这是由AG 2在19秒内完成答题,创新纪录。
根据所给的解决方案,与一代AG一样,所有解决方案中的辅助点都是由语言模型自动生成的。
证明中,所有的角度追踪都使用了高斯消元法(G ),(AB)?(CD)等于从AB到CD的有向角度(以π为模)。
解题过程中,AI会手动标注相似角形和全等角形对(以红色标注)。
接下来,就是AG的解题步骤了,采用了「反证法」去完成。
先用L完成需要证明命题的形式化,以及可视化几何构造。
证明中的关键步骤,如下所示。
完整解题过程参见下图:-DMB-2024-P4
上下滑动查看
P6
IMO第六题便是「终极」,探讨了函数的性质,要求证明关于有理数的特定结论。
AI求解,=2。
先来看定理声明是,定义了「A函数」的性质,并声明对于所有这样的函数,()+(-)的取值集合比较多有2个元素。
证明策略是,首先证明对于任何A函数,()+(-)的取值集合比较多有2个元素。然后构造一个具体的A函数,使得()+(-)恰好有2个不同的值。
证明当(0)=0时,()+(-)比较多取两个不同的值,并证明不可能存在(0)≠0的A函数。
构造函数()=-+2??,并证明它是A函数。
比较后,再去证明对于这个函数,(-1)+(1) =0和(12)+(-12)=2是两个不同的值。
以下是完整解题过程:-DMB-2024-P6
上下滑动查看
能做奥数题,但能分清911和99谁大吗
斯坦福大学和红杉的研究员A G肯定了这次AI突破的意义――
关键的是,比较新IMO试题不包含训练集中。这一点很重要,说明AI能够处理全新的、未见过的问题。
而且,被AI成功解出的几何问题,由于涉及空间性质(需要直观思维和空间想象力),历来都被认为是极具挑战性的。
英伟达高级科学家J F则发长文表示,大模型是神秘的存在――
它们既能在数学奥林匹克竞赛中获得银牌,又会在「911和99哪个数字更大」这样的问题上频频出错。
不仅是G,就连GPT-4、C-35、L-3都法100%正确回答。
通过训练AI模型,我们正在探索超越自身智能的广阔领域。在这个过程中,我们发现了一个非常奇特的区域――一个看起来像地球,却充满诡异山谷的系外行星
这看起来很不合理,但我们可以用训练数据分布来解释:
AP和AG 2,是在形式化证明和特定领域的符号引擎上完成训练。在某种程度上,它们在解决专业的奥林匹克竞赛问题更出色,即使它们基于通用LLM构建的。而GPT-4的训练集中,混杂了大量的GH代码数据,可能远远超过数学数据。在软件版本中,「911 99」,可能严重扭曲了数据分布。因此,这个错误在某种程度上是可以理解的。
谷歌开发者负责人表示,能够解决困难的数学、物理问题的模型,是通向的关键路径,而今天我们在这条道路上又迈出了一步。
另有友表示,这一周信息量太大了。
更要紧的是,把ai写作免费分析透彻,让其社会功能发挥到极致才是我们当务之急要做的。欢迎来到我们的AI写作免费助手工具集合平台,这里提供了多种AI写作工具,包括免费AI写作工具、AI论文写作、AI查重、AI提示词、AI文献阅读、语法检查、同义词查询、写作模板等,旨在帮助您轻松提升写作效率和质量。https://www.aigc.cn/favorites/ai-writing-tools
|
|