數學奧林匹克中的人工智慧:數學問題解決的新時代 國際數學奧林匹克長期以來一直是全球最艱難的數學競賽,吸引著頂尖學生。 現在,它也成為了人工智慧推理的基準。👇
今年標誌著一個里程碑: 來自 Google DeepMind 和 OpenAI 的 AI 模型在 IMO 問題上達到了金牌表現——與頂尖人類參賽者的水平相同。 這是 AI 在抽象數學推理能力上的真正飛躍。
事件時間表: > 星期五:有關DeepMind獲得金牌表現的消息洩漏 > 星期六凌晨1點:OpenAI在官方確認之前宣布結果 > 星期一:DeepMind正式確認金牌地位,並提供了經IMO官員完全驗證的優雅解決方案。他們的解決方案更為優雅,並經過嚴格檢查。
2024 年至 2025 年的技術轉變 去年:像 AlphaGeometry 這樣的 AI 模型需要域轉換(精益等)+ 2-3 天的計算時間。 今年:Gemini 和 OpenAI 的模型在 IMO 的 4.5 小時限制內以自然語言端到端解決了問題。
風格差異 OpenAI 的回答: > 邏輯上合理,但雜亂無章 > 缺乏結構,過度使用「禁止」等術語 > 對於某些問題超過 400 行 > 不易人類閱讀 Gemini 的證明: > 優雅且清晰,IMO 評分者表示它們「易於理解」 > 可以通過人類撰寫的標準
問題 2(幾何)顯示了差距: OpenAI 使用暴力座標幾何→正確但笨拙的 442 行證明 DeepMind 的 Gemini 使用角度追逐和西爾維斯特定理→簡潔、富有洞察力的解決方案,反映了熟練的人類。
為什麼 Gemini 成功了 > 並行思維:同時探索多個解決方案路徑 > 增強多步推理的新型強化學習技術 > 獲得精心策劃的數學解決方案和戰略提示
OpenAI 的方法? 通用強化學習 + 測試時計算擴展。
這意味著什麼 解決 IMO 問題令人印象深刻,但真正的數學更深入: > 抽象推理 >概念創建 > 研究直覺 我們還沒有到那一步,但這是向前邁出的真正一步。
為了真正推動人工智慧數學能力向前發展,我們需要: > 精細獎勵函數 > 專用 RL 管道 >或者也許......一種沒有人預料到的通配符技術
隨著人工智慧進入數學、科學和研究——對計算的需求急劇增加。 這就是為什麼獲得可負擔的、可擴展的GPU基礎設施至關重要。 讓我們讓未來對所有人都可及。
查看完整的部落格文章在這裡:
我們與 Latent Space 的完整播客在這裡:
1.07K