🧵 Пока лаборатории ИИ стремятся масштабировать RL, один вопрос имеет значение: когда следует прекратить предобучение и начать RL? Мы обучили 5 моделей Qwen (0.6B→14B) с RL на GSM8K и обнаружили нечто диковинное: Малые модели демонстрируют скачки, похожие на ЭМЕРДЖЕНС. Большие модели показывают убывающую отдачу. Закон масштабирования? Не то, что вы ожидали.