Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meu grupo e colaboradores desenvolveram muitos benchmarks populares ao longo dos anos, por exemplo, MMLU, MATH, APPS--- realmente entusiasmados com nosso mais recente benchmark OMEGA Ω:
🔍Os LLMs podem realmente pensar fora da caixa em matemática?
Um novo benchmark sondando 3 eixos de generalização:
1️⃣ Exploratório
2️⃣ Composicional
3️⃣ Transformador
mostrando as limitações da IA de fronteira de hoje e do treinamento de RL nessas dimensões de generalização.
Inspirada na tipologia de criatividade de Boden, a OMEGA avança além dos benchmarks anteriores com um conjunto de dados gerado programaticamente que combina controle preciso com rica diversidade. Abrangendo uma ampla gama de domínios matemáticos, ele é explicitamente projetado para avaliar eixos distintos de generalização e raciocínio criativo.
Ao isolar e quantificar modos de falha refinados, a OMEGA fornece uma base para o avanço dos LLMs em direção à criatividade matemática genuína - além da proficiência mecânica.
Muito obrigado ao meu pós-doutorado @YiyouSun @UCBerkeley liderar o projeto e aos incríveis colaboradores @nouhadziri @HannaHajishirzi @allen_ai e outros coautores!

25 de jun. de 2025
📢 Os LLMs podem realmente raciocinar fora da caixa em matemática? Ou eles estão apenas remixando estratégias familiares?
Lembre-se de que o DeepSeek R1, o1 nos impressionou em matemática de nível olímpico, mas também estava falhando em aritmética 😬 simples
Construímos um benchmark para descobrir → a OMEGA Ω 📐
💥 Descobrimos que, embora muito poderoso, o RL luta para compor habilidades e inovar novas estratégias que não foram vistas durante o treinamento. 👇
trabalho w. @UCBerkeley @allen_ai
Um tópico sobre o que aprendemos 🧵

20,74K
Melhores
Classificação
Favoritos