Interessante ver a Bytedance trabalhando para resolver o problema do gradiente 0. A ideia deles é abordá-lo por meio de um orçamento de computação adaptável; nós o abordamos de uma perspectiva de recompensa. O treinamento GRPO normalmente usa conjuntos de dados pequenos e cuidadosamente selecionados, os dados precisam ser muito difíceis para fornecer sinais de aprendizado avançados e permitir a descoberta. O treinamento em dados mais fáceis apenas aprimorará o que o modelo já viu no SFT/pré-treinamento!
🚀 Animado para compartilhar nosso trabalho na Bytedance Seed!
Knapsack RL: Desbloqueando a exploração de LLMs por meio de alocação 🎒 de orçamento
A exploração no treinamento LLM é crucial, mas cara.
A alocação de distribuição uniforme é um desperdício:
✅ Tarefas fáceis → sempre resolvidas → 0 gradiente
❌ Tarefas difíceis → sempre falham → 0 gradiente
💡 Nossa ideia: tratar a exploração como um problema costal → alocar lançamentos onde eles são mais importantes.
✨ Resultados:
🔼 +20–40% mais gradientes diferentes de zero
🧮 Até 93 implementações para tarefas difíceis (sem computação extra)
📈 +2–4 pontos médios, +9 ganhos máximos em benchmarks matemáticos
💰 ~ 2× mais barato do que a alocação uniforme
📄 Papel:
🚀Já se perguntou como fazer o RL funcionar em tarefas difíceis impossíveis onde pass@k = 0%? 🤔
Em nosso novo trabalho, compartilhamos a Receita RL Grokking: uma receita de treinamento que permite que os LLMs resolvam problemas de codificação anteriormente insolúveis! Estarei na #CoLM2025 na próxima semana, então ficarei feliz em conversar sobre isso!
Também mergulhamos no debate acalorado: o RL apenas aprimora as habilidades aprendidas anteriormente ou pode desbloquear um raciocínio genuinamente novo? 🔥🔥
Leia o blog completo aqui:
#AI #RL #NLP #reinforcementlearning #llm