🚀 Vi är glada över att få dela med oss av vårt arbete på Bytedance Seed! Knapsack RL: Låsa upp utforskning av LLM via budgettilldelning 🎒 Utforskning i LLM-utbildning är avgörande men dyrt. Enhetlig allokering av utrullning är slösaktigt: ✅ Enkla uppgifter → alltid lösta → 0 gradient ❌ Svåra uppgifter → misslyckas alltid → 0 gradient 💡 Vår idé: behandla prospektering som ett ryggsäcksproblem → allokera utrullningar där de är viktigast. ✨ Resultat: 🔼 +20–40 % fler gradienter som inte är noll 🧮 Upp till 93 distributioner för svåra uppgifter (utan extra beräkning) 📈 +2–4 genomsnittliga poäng, +9 toppvinster på matematiska riktmärken 💰 ~2× billigare än enhetlig allokering 📄 Papper: