"veRL es el mejor framework de RL, es súper eficiente" realmente. ¿Estás seguro de eso? ¿Está seguro de que necesita 16 GPU para ajustar un modelo 7B en un contexto de 8k? ¿Crees que es razonable que cada paso tome 19 minutos para esto?