"veRL — это лучший фреймворк RL, он суперэффективен" Серьезно. Ты уверен в этом? Ты уверен, что тебе нужно 16 GPU, чтобы настроить модель на 7B с контекстом 8k? Ты думаешь, что это разумно, когда каждый шаг занимает 19 минут?