Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Grup & kolaborator saya telah mengembangkan banyak tolok ukur populer selama bertahun-tahun, misalnya, MMLU, MATH, APPS---sangat bersemangat dengan benchmark terbaru kami OMEGA Ω:
🔍Bisakah LLM benar-benar berpikir di luar kotak dalam matematika?
Tolok ukur baru yang menyelidiki 3 sumbu generalisasi:
1️⃣ Eksplorasi
2️⃣ Komposisi
3️⃣ Transformatif
menunjukkan keterbatasan AI perbatasan saat ini dan pelatihan RL dalam dimensi generalisasi ini.
Terinspirasi oleh tipologi kreativitas Boden, OMEGA maju melampaui tolok ukur sebelumnya dengan kumpulan data yang dihasilkan secara terprogram yang menggabungkan kontrol yang tepat dengan keragaman yang kaya. Mencakup berbagai domain matematika, ini secara eksplisit dirancang untuk mengevaluasi sumbu generalisasi dan penalaran kreatif yang berbeda.
Dengan mengisolasi dan mengukur mode kegagalan yang terperinci, OMEGA memberikan dasar untuk memajukan LLM menuju kreativitas matematika yang asli—di luar kemahiran mekanis.
Terima kasih banyak kepada postdoc saya @YiyouSun @UCBerkeley memimpin proyek ini, dan kolaborator luar biasa @nouhadziri @HannaHajishirzi @allen_ai dan rekan penulis lainnya!
Teratas
Peringkat
Favorit