"veRL è il miglior framework RL, è super efficiente" davvero. sei sicuro di questo? sei sicuro che hai bisogno di 16 GPU per ottimizzare un modello da 7B con un contesto di 8k? pensi che sia ragionevole che ogni passo richieda 19 minuti per questo?