熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
數學奧林匹克中的人工智慧:數學問題解決的新時代
國際數學奧林匹克長期以來一直是全球最艱難的數學競賽,吸引著頂尖學生。
現在,它也成為了人工智慧推理的基準。👇
今年標誌著一個里程碑:
來自 Google DeepMind 和 OpenAI 的 AI 模型在 IMO 問題上達到了金牌表現——與頂尖人類參賽者的水平相同。
這是 AI 在抽象數學推理能力上的真正飛躍。
事件時間表:
> 星期五:有關DeepMind獲得金牌表現的消息洩漏
> 星期六凌晨1點:OpenAI在官方確認之前宣布結果
> 星期一:DeepMind正式確認金牌地位,並提供了經IMO官員完全驗證的優雅解決方案。他們的解決方案更為優雅,並經過嚴格檢查。
2024 年至 2025 年的技術轉變
去年:像 AlphaGeometry 這樣的 AI 模型需要域轉換(精益等)+ 2-3 天的計算時間。
今年:Gemini 和 OpenAI 的模型在 IMO 的 4.5 小時限制內以自然語言端到端解決了問題。
風格差異
OpenAI 的回答:
> 邏輯上合理,但雜亂無章
> 缺乏結構,過度使用「禁止」等術語
> 對於某些問題超過 400 行
> 不易人類閱讀
Gemini 的證明:
> 優雅且清晰,IMO 評分者表示它們「易於理解」
> 可以通過人類撰寫的標準
問題 2(幾何)顯示了差距:
OpenAI 使用暴力座標幾何→正確但笨拙的 442 行證明
DeepMind 的 Gemini 使用角度追逐和西爾維斯特定理→簡潔、富有洞察力的解決方案,反映了熟練的人類。
為什麼 Gemini 成功了
> 並行思維:同時探索多個解決方案路徑
> 增強多步推理的新型強化學習技術
> 獲得精心策劃的數學解決方案和戰略提示
OpenAI 的方法?
通用強化學習 + 測試時計算擴展。
這意味著什麼
解決 IMO 問題令人印象深刻,但真正的數學更深入:
> 抽象推理
>概念創建
> 研究直覺
我們還沒有到那一步,但這是向前邁出的真正一步。
為了真正推動人工智慧數學能力向前發展,我們需要:
> 精細獎勵函數
> 專用 RL 管道
>或者也許......一種沒有人預料到的通配符技術
隨著人工智慧進入數學、科學和研究——對計算的需求急劇增加。
這就是為什麼獲得可負擔的、可擴展的GPU基礎設施至關重要。
讓我們讓未來對所有人都可及。
查看完整的部落格文章在這裡:
我們與 Latent Space 的完整播客在這裡:
1.07K
熱門
排行
收藏