"veRL es el mejor marco de RL, es súper eficiente" ¿De verdad? ¿Estás seguro de eso? ¿Estás seguro de que necesitas 16 GPUs para ajustar un modelo de 7B con un contexto de 8k? ¿Crees que es razonable que cada paso tarde 19 minutos para esto?