"Treinamento de imaginação" refere-se ao processo pelo qual a política do agente é otimizada inteiramente dentro do modelo de mundo aprendido (ou seja, em "imaginação"), sem interação adicional com o ambiente real. Para robôs reais, o vídeo de um ambiente de fábrica (incluindo ações e seus efeitos) seria usado para construir um modelo de mundo realista, que é então usado para desenvolver regras comportamentais de robôs (políticas) por meio de treinamento de imaginação. "Apresentamos o Dreamer 4, um agente escalável que aprende a resolver tarefas complexas de controle por meio de aprendizado por reforço dentro de um modelo de mundo rápido e preciso. O agente consiste em um tokenizer e um modelo dinâmico, conforme mostrado na Figura 2. O tokenizer compacta quadros de vídeo em representações contínuas e o modelo dinâmico prevê as representações dadas as ações intercaladas, ambas usando a mesma arquitetura de transformador eficiente. O tokenizer é treinado usando codificação automática mascarada e a dinâmica é treinada usando um objetivo de força de atalho para permitir gerações interativas com um pequeno número de passagens para frente e evitar o acúmulo de erros ao longo do tempo. Conforme descrito no Algoritmo 1, primeiro pré-treinamos o tokenizador e o modelo de mundo em vídeos e ações, depois ajustamos a política e o modelo de recompensa no modelo de mundo, intercalando incorporações de tarefas e, finalmente, pós-treinamos a política por meio de treinamento de imaginação.