Grup & kolaborator saya telah mengembangkan banyak tolok ukur populer selama bertahun-tahun, misalnya, MMLU, MATH, APPS---sangat bersemangat dengan benchmark terbaru kami OMEGA Ω: 🔍Bisakah LLM benar-benar berpikir di luar kotak dalam matematika? Tolok ukur baru yang menyelidiki 3 sumbu generalisasi: 1️⃣ Eksplorasi 2️⃣ Komposisi 3️⃣ Transformatif menunjukkan keterbatasan AI perbatasan saat ini dan pelatihan RL dalam dimensi generalisasi ini. Terinspirasi oleh tipologi kreativitas Boden, OMEGA maju melampaui tolok ukur sebelumnya dengan kumpulan data yang dihasilkan secara terprogram yang menggabungkan kontrol yang tepat dengan keragaman yang kaya. Mencakup berbagai domain matematika, ini secara eksplisit dirancang untuk mengevaluasi sumbu generalisasi dan penalaran kreatif yang berbeda. Dengan mengisolasi dan mengukur mode kegagalan yang terperinci, OMEGA memberikan dasar untuk memajukan LLM menuju kreativitas matematika yang asli—di luar kemahiran mekanis. Terima kasih banyak kepada postdoc saya @YiyouSun @UCBerkeley memimpin proyek ini, dan kolaborator luar biasa @nouhadziri @HannaHajishirzi @allen_ai dan rekan penulis lainnya!