Mielenkiintoista nähdä Bytedancen työskentelevän 0-gradienttiongelman ratkaisemiseksi. Heidän ideansa on ratkaista se mukautuvan laskentabudjetin avulla; Lähestymme sitä palkitsemisen näkökulmasta. GRPO-koulutuksessa käytetään tyypillisesti pieniä, huolellisesti kuratoituja tietojoukkoja, ja tietojen on oltava todella vaikeita, jotta ne voivat tarjota rikkaita oppimissignaaleja ja mahdollistaa löytämisen. Helpomman datan harjoittelu vain terävöittää sitä, mitä malli on jo nähnyt SFT:ssä/esikoulutuksessa!
🚀 Innoissamme voidessamme jakaa työmme Bytedance Seedissä!
Knapsack RL: LLM:n tutkimisen avaaminen budjettimäärärahojen avulla 🎒
LLM-koulutuksen tutkiminen on ratkaisevan tärkeää, mutta kallista.
Yhtenäinen käyttöönotto on tuhlausta:
✅ Helpot tehtävät → aina ratkaistu → 0 kaltevuus
❌ Vaikeat tehtävät → aina epäonnistuvat → 0 kaltevuus
💡 Ajatuksemme: käsitellä etsintää reppuongelmana → kohdentaa käyttöönotot sinne, missä niillä on eniten merkitystä.
✨ Tulokset:
🔼 +20–40 % enemmän nollasta poikkeavia kaltevuuksia
🧮 Jopa 93 käyttöönottoa vaikeisiin tehtäviin (ilman ylimääräistä laskentaa)
📈 +2–4 keskiarvopistettä, +9 huippuvoittoa matematiikan vertailuarvoissa
💰 ~2× halvempaa kuin yhtenäinen jako
📄 Paperi:
🚀Oletko koskaan miettinyt, miten saada RL työskentelemään mahdottomien vaikeiden tehtävien parissa, joissa pass@k = 0 %? 🤔
Uudessa työssämme jaamme RL Grokking -reseptin: koulutusreseptin, jonka avulla LLM:t voivat ratkaista aiemmin ratkaisemattomia koodausongelmia! Olen #CoLM2025 ensi viikolla, joten juttelen siitä mielelläni!
Sukellamme myös kiivaaseen keskusteluun: terävöittääkö RL vain aiemmin opittuja taitoja vai voiko se avata aidosti uutta päättelyä? 🔥🔥
Lue koko blogi täältä:
#AI #RL #NLP #reinforcementlearning #llm