"veRL este cel mai bun cadru RL, este super eficient" chiar. Ești sigur de asta. sunteți sigur că aveți nevoie de 16 GPU-uri pentru a regla un model 7B în context 8k. Crezi că este rezonabil ca fiecare pas să dureze 19 minute pentru asta