Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 ¡Emocionado de compartir nuestro trabajo en Bytedance Seed!
Knapsack RL: Desbloqueando la Exploración de LLMs a través de la Asignación de Presupuesto 🎒
La exploración en el entrenamiento de LLM es crucial pero costosa.
La asignación uniforme de rollouts es derrochadora:
✅ Tareas fáciles → siempre resueltas → 0 gradiente
❌ Tareas difíciles → siempre fallan → 0 gradiente
💡 Nuestra idea: tratar la exploración como un problema de mochila → asignar rollouts donde más importan.
✨ Resultados:
🔼 +20–40% más gradientes no nulos
🧮 Hasta 93 rollouts para tareas difíciles (sin computación extra)
📈 +2–4 puntos de promedio, +9 picos de ganancias en benchmarks matemáticos
💰 ~2× más barato que la asignación uniforme
📄 Artículo:


Parte superior
Clasificación
Favoritos