"veRL - це найкращий фреймворк RL, він супер ефективний" Справді. Ви впевнені в цьому. ви впевнені, що вам потрібно 16 графічних процесорів, щоб налаштувати модель 7B в контексті 8k. Ви вважаєте розумним, що кожен крок займає для цього 19 хвилин