Mon groupe et mes collaborateurs ont développé de nombreux benchmarks populaires au fil des ans, par exemple, MMLU, MATH, APPS--- vraiment enthousiasmés par notre dernier benchmark OMEGA Ω : 🔍Les LLM peuvent-ils vraiment sortir des sentiers battus en mathématiques ? Un nouveau repère sondant 3 axes de généralisation : 1️⃣ Exploratoire 2️⃣ Compositionnel 3️⃣ Transformateur montrant les limites de l’IA et de l’apprentissage par renforcement dans ces dimensions de généralisation. S’inspirant de la typologie de la créativité de Boden, OMEGA va au-delà des références précédentes grâce à un ensemble de données généré par programmation qui combine un contrôle précis et une grande diversité. Couvrant un large éventail de domaines mathématiques, il est explicitement conçu pour évaluer des axes distincts de généralisation et de raisonnement créatif. En isolant et en quantifiant les modes de défaillance à grain fin, OMEGA fournit une base pour faire progresser les LLM vers une véritable créativité mathématique, au-delà de la compétence mécanique. Un grand merci à mon postdoc @YiyouSun @UCBerkeley diriger le projet, et à mes incroyables collaborateurs @nouhadziri @HannaHajishirzi @allen_ai et autres co-auteurs !