Цікаво спостерігати, як Bytedance працює над вирішенням проблеми 0-градієнта. Їхня ідея полягає в тому, щоб вирішити цю проблему за допомогою адаптивного бюджету обчислень; Ми підходимо до цього з точки зору винагороди. Навчання GRPO зазвичай використовує невеликі, ретельно підібрані набори даних, дані повинні бути дійсно жорсткими, щоб надати багаті навчальні сигнали та забезпечити можливість виявлення. Тренування на простіших даних лише загострить те, що модель вже бачила в SFT/pre-training!
🚀 Раді поділитися своєю роботою в Bytedance Seed!
Knapsack RL: розблокування дослідження LLM шляхом розподілу 🎒 бюджету
Дослідження в навчанні LLM є важливим, але дорогим.
Рівномірний розподіл розгортання є марнотратним:
✅ Легкі завдання → завжди вирішуються → градієнті 0
❌ Складні завдання → завжди зазнають невдачі → 0 градієнт
💡 Наша ідея: ставитися до розвідки як до проблеми рюкзака → розподіляти розгортання там, де вони найважливіші.
✨ Результатів:
🔼 На +20–40% більше ненульових градієнтів
🧮 До 93 розгортань для складних завдань (без додаткових обчислень)
📈 +2–4 середні бали, +9 пікових приростів на математичних бенчмарках
💰 ~2× дешевше, ніж рівномірний розподіл
📄 Папір:
🚀Ви коли-небудь замислювалися, як змусити RL працювати над неможливими важкими завданнями, де pass@k = 0%? 🤔
У нашій новій роботі ми ділимося рецептом RL Grokking: тренувальним рецептом, який дозволяє LLM вирішувати раніше нерозв'язні проблеми кодування! Наступного тижня я буду в #CoLM2025, тому радий поговорити про це!
Ми також занурюємося в гарячу дискусію: чи РЛ просто відточує раніше вивчені навички, чи може розблокувати справді нові міркування? 🔥🔥
Повний текст блогу читайте тут:
#AI #RL #NLP #reinforcementlearning #llm