"veRL 是最好的 RL 框架,它超级高效" 真的。你确定吗?你确定你需要 16 个 GPU 来调整一个 7B 模型,8k 上下文吗?你觉得每一步花费 19 分钟是合理的吗?