多年來,我的團隊和合作者開發了許多流行的基準測試,例如 MMLU、MATH、APPS---對我們最新的基準 OMEGA Ω感到非常興奮: 🔍法學碩士真的可以在數學中跳出框框思考嗎? 一個探測 3 個泛化軸的新基準: 1️⃣ 探索性 2️⃣ 構圖 3️⃣ 變革性 顯示了當今前沿人工智慧和 RL 訓練在這些泛化維度上的局限性。 受到博登創造力類型的啟發,歐米茄通過編程生成的數據集超越了先前的基準,該數據集將精確控制與豐富的多樣性相結合。它跨越廣泛的數學領域,專門設計用於評估不同的概括和創造性推理軸。 透過隔離和量化細粒度故障模式,OMEGA 為推動法學碩士實現真正的數學創造力奠定了基礎,超越了機械熟練程度。 非常感謝我的博士後@YiyouSun @UCBerkeley領導這個項目,以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者!