Meu grupo e colaboradores desenvolveram muitos benchmarks populares ao longo dos anos, por exemplo, MMLU, MATH, APPS--- realmente entusiasmados com nosso mais recente benchmark OMEGA Ω: 🔍Os LLMs podem realmente pensar fora da caixa em matemática? Um novo benchmark sondando 3 eixos de generalização: 1️⃣ Exploratório 2️⃣ Composicional 3️⃣ Transformador mostrando as limitações da IA de fronteira de hoje e do treinamento de RL nessas dimensões de generalização. Inspirada na tipologia de criatividade de Boden, a OMEGA avança além dos benchmarks anteriores com um conjunto de dados gerado programaticamente que combina controle preciso com rica diversidade. Abrangendo uma ampla gama de domínios matemáticos, ele é explicitamente projetado para avaliar eixos distintos de generalização e raciocínio criativo. Ao isolar e quantificar modos de falha refinados, a OMEGA fornece uma base para o avanço dos LLMs em direção à criatividade matemática genuína - além da proficiência mecânica. Muito obrigado ao meu pós-doutorado @YiyouSun @UCBerkeley liderar o projeto e aos incríveis colaboradores @nouhadziri @HannaHajishirzi @allen_ai e outros coautores!