🚀 ¡Emocionado de compartir nuestro trabajo en Bytedance Seed! Knapsack RL: Desbloqueo de la exploración de LLM a través de la asignación presupuestaria 🎒 La exploración en la capacitación de LLM es crucial pero costosa. La asignación uniforme de implementación es un desperdicio: ✅ Las tareas fáciles siempre → resuelven → gradiente 0 ❌ Las tareas difíciles siempre → fallar → gradiente 0 💡 Nuestra idea: tratar la exploración como un problema de mochila → asignar los despliegues donde más importan. ✨ Resultados: 🔼 +20-40% más pendientes distintas de cero 🧮 Hasta 93 implementaciones para tareas difíciles (sin computación adicional) 📈 +2–4 puntos promedio, +9 ganancias máximas en puntos de referencia matemáticos 💰 ~2× más barato que la asignación uniforme 📄 Papel: