"Обучение воображению" относится к процессу, при котором политика агента оптимизируется полностью внутри изученной модели мира (т.е. в "воображении"), без дальнейшего взаимодействия с реальной средой. Для реальных роботов видео с фабричной среды (включая действия и их последствия) будет использоваться для создания реалистичной модели мира, которая затем используется для разработки правил поведения робота (политик) через обучение воображению. "Мы представляем Dreamer 4, масштабируемого агента, который учится решать сложные задачи управления с помощью обучения с подкреплением внутри быстрой и точной модели мира. Агент состоит из токенизатора и модели динамики, как показано на рисунке 2. Токенизатор сжимает видеокадры в непрерывные представления, а модель динамики предсказывает представления, учитывая чередующиеся действия, используя одну и ту же эффективную архитектуру трансформера. Токенизатор обучается с использованием маскированного автоэнкодирования, а динамика обучается с использованием цели принуждения к сокращению, чтобы обеспечить интерактивные генерации с небольшим количеством прямых проходов и предотвратить накопление ошибок со временем. Как описано в Алгоритме 1, сначала мы предварительно обучаем токенизатор и модель мира на видео и действиях, затем дообучаем политику и модель вознаграждения в модели мира, чередуя эмбеддинги задач, и, наконец, постобучаем политику через обучение воображению."