🚀 Senang berbagi karya kami di Bytedance Seed! Knapsack RL: Membuka Eksplorasi LLM melalui Alokasi 🎒 Anggaran Eksplorasi dalam pelatihan LLM sangat penting tetapi mahal. Alokasi peluncuran yang seragam boros: ✅ Tugas mudah → selalu diselesaikan → gradien 0 ❌ Tugas sulit → selalu gagal → gradien 0 💡 Ide kami: memperlakukan eksplorasi sebagai masalah ransel → mengalokasikan peluncuran di tempat yang paling penting. ✨ Hasil: 🔼 +20–40% lebih banyak gradien bukan nol 🧮 Hingga 93 peluncuran untuk tugas sulit (tanpa komputasi tambahan) 📈 +2–4 poin rata-rata, +9 kenaikan puncak pada tolok ukur matematika 💰 ~2× lebih murah daripada alokasi seragam 📄 Kertas: