"L'addestramento dell'immaginazione" si riferisce al processo mediante il quale la politica dell'agente viene ottimizzata interamente all'interno del modello di mondo appreso (cioè nell'"immaginazione"), senza ulteriori interazioni con l'ambiente reale. Per i robot reali, un video di un ambiente di fabbrica (inclusi le azioni e i loro effetti) verrebbe utilizzato per costruire un modello di mondo realistico, che viene poi utilizzato per sviluppare regole comportamentali per i robot (politiche) tramite l'addestramento dell'immaginazione. "Presentiamo Dreamer 4, un agente scalabile che impara a risolvere compiti di controllo complessi attraverso l'apprendimento per rinforzo all'interno di un modello di mondo veloce e accurato. L'agente è composto da un tokenizer e un modello di dinamica, come mostrato nella Figura 2. Il tokenizer comprime i fotogrammi video in rappresentazioni continue e il modello di dinamica predice le rappresentazioni date azioni intercalate, entrambi utilizzando la stessa architettura di trasformatore efficiente. Il tokenizer è addestrato utilizzando l'autoencoding mascherato e la dinamica è addestrata utilizzando un obiettivo di forcing a scorciatoia per abilitare generazioni interattive con un numero ridotto di passaggi in avanti e prevenire l'accumulo di errori nel tempo. Come delineato nell'Algoritmo 1, prima pre-addestriamo il tokenizer e il modello di mondo su video e azioni, poi affiniamo il modello di politica e di ricompensa nel modello di mondo intercalando le embedding dei compiti, e infine post-addestriamo la politica attraverso l'addestramento dell'immaginazione."