🚀 Aufgeregt, unsere Arbeit bei Bytedance Seed zu teilen! Knapsack RL: Erschließung der Erkundung von LLMs durch Budgetzuweisung 🎒 Die Erkundung im Training von LLMs ist entscheidend, aber teuer. Die uniforme Rollout-Zuweisung ist verschwenderisch: ✅ Einfache Aufgaben → immer gelöst → 0 Gradient ❌ Schwierige Aufgaben → immer gescheitert → 0 Gradient 💡 Unsere Idee: die Erkundung als Rucksackproblem behandeln → Rollouts dort zuweisen, wo sie am meisten zählen. ✨ Ergebnisse: 🔼 +20–40% mehr nicht-null Gradienten 🧮 Bis zu 93 Rollouts für schwierige Aufgaben (ohne zusätzliche Rechenleistung) 📈 +2–4 durchschnittliche Punkte, +9 Spitzengewinne bei Mathematik-Benchmarks 💰 ~2× günstiger als uniforme Zuweisung 📄 Papier: