🚀 Рад поделиться нашей работой в Bytedance Seed! Knapsack RL: Разблокировка исследования LLM через распределение бюджета 🎒 Исследование в обучении LLM имеет решающее значение, но дорого. Равномерное распределение роллов неэффективно: ✅ Легкие задачи → всегда решены → 0 градиент ❌ Сложные задачи → всегда провалены → 0 градиент 💡 Наша идея: рассматривать исследование как задачу о рюкзаке → распределять роллы там, где это имеет наибольшее значение. ✨ Результаты: 🔼 +20–40% больше ненулевых градиентов 🧮 До 93 роллов для сложных задач (без дополнительных вычислений) 📈 +2–4 средних балла, +9 пиковых приростов на математических тестах 💰 ~2× дешевле, чем равномерное распределение 📄 Статья: