O meu grupo e colaboradores desenvolveram muitos benchmarks populares ao longo dos anos, por exemplo, MMLU, MATH, APPS--- muito entusiasmados com o nosso mais recente benchmark OMEGA Ω: 🔍Os LLMs podem realmente pensar fora da caixa em matemática? Um novo benchmark sondando 3 eixos de generalização: 1️⃣ Exploratório 2️⃣ Composição 3️⃣ Transformador mostrando as limitações da IA de fronteira e do treinamento RL de hoje nessas dimensões de generalização. Inspirada pela tipologia de criatividade da Boden, a OMEGA avança para além dos padrões de referência anteriores com um conjunto de dados gerado programaticamente que combina controlo preciso com uma diversidade rica. Abrangendo uma ampla gama de domínios matemáticos, é explicitamente projetado para avaliar eixos distintos de generalização e raciocínio criativo. Ao isolar e quantificar modos de falha de grão fino, a OMEGA fornece uma base para o avanço dos LLMs em direção à criatividade matemática genuína — além da proficiência mecânica. Muito obrigado ao meu pós-doutorado @YiyouSun @UCBerkeley liderar o projeto, e colaboradores incríveis @nouhadziri @HannaHajishirzi @allen_ai e outros coautores!