数学オリンピックにおける AI: 数学的問題解決の新時代 IMOは長い間、優秀な学生にとって世界で最も厳しい数学コンテストでした。 現在では、AI 推論のベンチマークにもなりつつあります。 👇
今年は節目を迎えた。 Google DeepMind と OpenAI の AI モデルは、IMO の問題で金メダルを獲得し、人間のトップ出場者と同じレベルに達しました。 抽象的な数学を通じて推論するAIの能力の真の飛躍。
イベントのタイムライン: >金曜日: DeepMind の金メダル獲得パフォーマンスに関するニュースがリーク > 土曜日午前1時:OpenAIは公式確認に先立って結果を発表 >月曜日: DeepMind は、IMO 関係者によって完全に検証されたエレガントなソリューションで金メダルの地位を正式に確認しました。彼らのソリューションはよりエレガントで厳密にチェックされました
2024 年から 2025 年までの技術シフト 昨年:AlphaGeometryのようなAIモデルには、ドメイン変換(リーンなど)+2〜3日の計算が必要でした。 今年: Gemini と OpenAI のモデルは、IMO の 4.5 時間制限内で、自然言語でエンドツーエンドで問題を解決しました。
スタイルの違い OpenAIの回答: > 論理的には健全だが、乱雑 > 構造が欠け、「禁止されている」などの用語が乱用されている いくつかの問題に対して400 +行を> > 人間が読めるものではない ジェミニの証明: > エレガントで明確なIMOグレーダーは、「わかりやすい」と述べました > 人間が書いたものとして渡す可能性があります
問題 2 (幾何学) はギャップを示しました。 OpenAI はブルート フォース座標ジオメトリを使用し、正確ではあるが不格好な 442 行の証明→ DeepMind の Gemini は、角度追跡とシルベスターの定理を使用して、熟練した人間を反映した簡潔で洞察力に富んだ解決策→しました。
ジェミニが成功した理由 > 並列思考:複数のソリューションパスを同時に探索する > 多段階推論を強化する新しい強化学習技術 > 慎重に厳選された数学の解決策と戦略的ヒントへのアクセス
OpenAIのアプローチは? 汎用 RL + テスト時のコンピューティング スケーリング。
これが意味すること IMOの問題を解くことは印象的ですが、実際の数学はさらに深いものです。 > 抽象的な推論 > コンセプト作成 > 研究の直感 まだそこには至っていませんが、これは本当の前進です。
AI 数学機能を真に前進させるには、次のものが必要です。 > きめ細かな報酬関数 > 特殊なRLパイプライン > あるいは、もしかしたら...誰も予想していなかったワイルドカードテクニック
AI が数学、科学、研究に進出するにつれて、コンピューティングのニーズは爆発的に高まっています。 そのため、手頃な価格でスケーラブルなGPUインフラストラクチャへのアクセスはミッションクリティカルです。 その未来をすべての人が利用できるようにしましょう。
ブログ全文はこちらからご覧ください。
Latent Space のポッドキャスト全文はこちら:
1.07K