"veRL adalah kerangka kerja RL terbaik, sangat efisien" Benarkah. Apakah Anda yakin tentang itu. apakah Anda yakin bahwa Anda membutuhkan 16 GPU untuk menyetel model 7B pada konteks 8K. Apakah menurut Anda masuk akal setiap langkah membutuhkan waktu 19 menit untuk ini?