🚀 Siamo entusiasti di condividere il nostro lavoro presso Bytedance Seed! Knapsack RL: Sbloccare l'esplorazione degli LLM tramite allocazione del budget 🎒 L'esplorazione nell'addestramento degli LLM è cruciale ma costosa. L'allocazione uniforme dei rollout è inefficiente: ✅ Compiti facili → sempre risolti → 0 gradiente ❌ Compiti difficili → sempre falliti → 0 gradiente 💡 La nostra idea: trattare l'esplorazione come un problema dello zaino → allocare i rollout dove contano di più. ✨ Risultati: 🔼 +20–40% di gradienti non nulli in più 🧮 Fino a 93 rollout per compiti difficili (senza calcolo extra) 📈 +2–4 punti medi, +9 guadagni di picco nei benchmark matematici 💰 ~2× più economico rispetto all'allocazione uniforme 📄 Articolo: