熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
多年來,我的團隊和合作者開發了許多流行的基準測試,例如 MMLU、MATH、APPS---對我們最新的基準 OMEGA Ω感到非常興奮:
🔍法學碩士真的可以在數學中跳出框框思考嗎?
一個探測 3 個泛化軸的新基準:
1️⃣ 探索性
2️⃣ 構圖
3️⃣ 變革性
顯示了當今前沿人工智慧和 RL 訓練在這些泛化維度上的局限性。
受到博登創造力類型的啟發,歐米茄通過編程生成的數據集超越了先前的基準,該數據集將精確控制與豐富的多樣性相結合。它跨越廣泛的數學領域,專門設計用於評估不同的概括和創造性推理軸。
透過隔離和量化細粒度故障模式,OMEGA 為推動法學碩士實現真正的數學創造力奠定了基礎,超越了機械熟練程度。
非常感謝我的博士後@YiyouSun @UCBerkeley領導這個項目,以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者!
熱門
排行
收藏