"veRL 是最好的 RL 框架,它超級高效" 真的。你確定嗎?你確定你需要 16 個 GPU 來調整一個 7B 模型,8k 上下文嗎?你覺得每一步花費 19 分鐘是合理的嗎?