È interessante vedere Bytedance lavorare per risolvere il problema del gradiente zero. La loro idea è affrontarlo attraverso un budget computazionale adattivo; noi lo affrontiamo da una prospettiva di ricompensa. L'addestramento GRPO di solito utilizza piccoli dataset accuratamente curati, i dati devono essere davvero difficili per fornire segnali di apprendimento ricchi e abilitare la scoperta. Addestrare su dati più facili affinerà solo ciò che il modello ha già visto in SFT/pre-addestramento!
🚀 Siamo entusiasti di condividere il nostro lavoro presso Bytedance Seed!
Knapsack RL: Sbloccare l'esplorazione degli LLM tramite allocazione del budget 🎒
L'esplorazione nell'addestramento degli LLM è cruciale ma costosa.
L'allocazione uniforme dei rollout è inefficiente:
✅ Compiti facili → sempre risolti → 0 gradiente
❌ Compiti difficili → sempre falliti → 0 gradiente
💡 La nostra idea: trattare l'esplorazione come un problema dello zaino → allocare i rollout dove contano di più.
✨ Risultati:
🔼 +20–40% di gradienti non nulli in più
🧮 Fino a 93 rollout per compiti difficili (senza calcolo extra)
📈 +2–4 punti medi, +9 guadagni di picco nei benchmark matematici
💰 ~2× più economico rispetto all'allocazione uniforme
📄 Articolo:
🚀Ti sei mai chiesto come far funzionare il RL su compiti impossibili dove pass@k = 0%? 🤔
Nel nostro nuovo lavoro, condividiamo la Ricetta Grokking per il RL: una ricetta di addestramento che consente agli LLM di risolvere problemi di codifica precedentemente irrisolvibili! Sarò al #CoLM2025 la prossima settimana, quindi felice di parlarne!
Ci immergiamo anche nel dibattito acceso: il RL affina solo le abilità apprese in precedenza o può sbloccare un ragionamento genuinamente nuovo? 🔥🔥
Leggi il blog completo qui:
#AI #RL #NLP #reinforcementlearning #llm