"veRL je nejlepší RL framework, je super efektivní" Vážně. Jste si tím jistý. jste si jisti, že potřebujete 16 GPU k vyladění 7B modelu v 8K kontextu. Myslíte si, že je to rozumné, každý krok trvá 19 minut