私のグループと共同研究者は、MMLU、MATH、APPSなど、長年にわたって多くの人気のあるベンチマークを開発してきました---最新のベンチマークOMEGA Ωに本当に興奮しています。 🔍LLMは本当に数学において既成概念にとらわれずに考えることができるのでしょうか? 一般化の3つの軸を調査する新しいベンチマーク: 1️⃣ 探索的 2️⃣ 構成 3️⃣ 変革的 今日のフロンティアAIとRLトレーニングの限界を、一般化のこれらの次元で示しています。 ボーデンの創造性の類型学に触発されたオメガは、正確な制御と豊かな多様性を組み合わせたプログラムで生成されたデータセットにより、これまでのベンチマークを超えて進歩しています。幅広い数学的領域にまたがり、一般化と創造的推論の異なる軸を評価するように明示的に設計されています。 OMEGAは、きめ細かな故障モードを分離して定量化することで、機械的な熟練度を超えた真の数学的創造性に向けてLLMを前進させるための基盤を提供します。 プロジェクトを主導してくれたポスドク@YiyouSun @UCBerkeley、そして素晴らしい協力者@nouhadziri @HannaHajishirzi @allen_aiや他の共著者に心から感謝します。