🚀 Раді поділитися своєю роботою в Bytedance Seed! Knapsack RL: розблокування дослідження LLM шляхом розподілу 🎒 бюджету Дослідження в навчанні LLM є важливим, але дорогим. Рівномірний розподіл розгортання є марнотратним: ✅ Легкі завдання → завжди вирішуються → градієнті 0 ❌ Складні завдання → завжди зазнають невдачі → 0 градієнт 💡 Наша ідея: ставитися до розвідки як до проблеми рюкзака → розподіляти розгортання там, де вони найважливіші. ✨ Результатів: 🔼 На +20–40% більше ненульових градієнтів 🧮 До 93 розгортань для складних завдань (без додаткових обчислень) 📈 +2–4 середні бали, +9 пікових приростів на математичних бенчмарках 💰 ~2× дешевше, ніж рівномірний розподіл 📄 Папір: