🚀 Suntem încântați să împărtășim munca noastră la Bytedance Seed! Rucsac RL: Deblocarea explorării LLM-urilor prin alocarea 🎒 bugetului Explorarea în formarea LLM este crucială, dar costisitoare. Alocarea uniformă a implementării este o risipă: ✅ Sarcini ușoare → întotdeauna rezolvate → gradient 0 ❌ Sarcinile dificile → eșua întotdeauna → gradientul 0 💡 Ideea noastră: tratați explorarea ca pe o problemă de rucsac → alocați lansările acolo unde contează cel mai mult. ✨ Rezultatele: 🔼 +20-40% mai multe declivități diferite de zero 🧮 Până la 93 de lansări pentru sarcini dificile (fără calcul suplimentar) 📈 +2–4 puncte medii, +9 câștiguri maxime la benchmark-urile matematice 💰 ~2× mai ieftin decât alocarea uniformă 📄 Hârtie: