Meu grupo e colaboradores desenvolveram muitos benchmarks populares ao longo dos anos, por exemplo, MMLU, MATH, APPS--- realmente entusiasmados com nosso mais recente benchmark OMEGA Ω: 🔍Os LLMs podem realmente pensar fora da caixa em matemática? Um novo benchmark sondando 3 eixos de generalização: 1️⃣ Exploratório 2️⃣ Composicional 3️⃣ Transformador mostrando as limitações da IA de fronteira de hoje e do treinamento de RL nessas dimensões de generalização. Inspirada na tipologia de criatividade de Boden, a OMEGA avança além dos benchmarks anteriores com um conjunto de dados gerado programaticamente que combina controle preciso com rica diversidade. Abrangendo uma ampla gama de domínios matemáticos, ele é explicitamente projetado para avaliar eixos distintos de generalização e raciocínio criativo. Ao isolar e quantificar modos de falha refinados, a OMEGA fornece uma base para o avanço dos LLMs em direção à criatividade matemática genuína - além da proficiência mecânica. Muito obrigado ao meu pós-doutorado @YiyouSun @UCBerkeley liderar o projeto e aos incríveis colaboradores @nouhadziri @HannaHajishirzi @allen_ai e outros coautores!
Nouha Dziri
Nouha Dziri25 de jun. de 2025
📢 Os LLMs podem realmente raciocinar fora da caixa em matemática? Ou eles estão apenas remixando estratégias familiares? Lembre-se de que o DeepSeek R1, o1 nos impressionou em matemática de nível olímpico, mas também estava falhando em aritmética 😬 simples Construímos um benchmark para descobrir → a OMEGA Ω 📐 💥 Descobrimos que, embora muito poderoso, o RL luta para compor habilidades e inovar novas estratégias que não foram vistas durante o treinamento. 👇 trabalho w. @UCBerkeley @allen_ai Um tópico sobre o que aprendemos 🧵
20,74K