"veRL is het beste RL-framework, het is super efficiënt" Echt waar. Ben je daar zeker van? Ben je zeker dat je 16 GPU's nodig hebt om een 7B-model met 8k context af te stemmen? Denk je dat het redelijk is dat elke stap 19 minuten duurt voor dit?