Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'"entraînement à l'imagination" fait référence au processus par lequel la politique de l'agent est optimisée entièrement à l'intérieur du modèle de monde appris (c'est-à-dire dans l'"imagination"), sans interaction supplémentaire avec l'environnement réel.
Pour les robots réels, une vidéo d'un environnement d'usine (y compris les actions et leurs effets) serait utilisée pour construire un modèle de monde réaliste, qui est ensuite utilisé pour développer des règles comportementales de robot (politiques) via l'entraînement à l'imagination.
"Nous présentons Dreamer 4, un agent évolutif qui apprend à résoudre des tâches de contrôle complexes par apprentissage par renforcement à l'intérieur d'un modèle de monde rapide et précis. L'agent se compose d'un tokenizer et d'un modèle de dynamique, comme montré dans la Figure 2. Le tokenizer compresse les images vidéo en représentations continues et le modèle de dynamique prédit les représentations données des actions entrelacées, les deux utilisant la même architecture de transformateur efficace. Le tokenizer est entraîné en utilisant l'auto-encodage masqué et la dynamique est entraînée en utilisant un objectif de forçage par raccourci pour permettre des générations interactives avec un petit nombre de passes avant et prévenir l'accumulation d'erreurs au fil du temps. Comme décrit dans l'Algorithme 1, nous pré-entraînons d'abord le tokenizer et le modèle de monde sur des vidéos et des actions, puis nous ajustons le modèle de politique et de récompense dans le modèle de monde en entrelaçant les embeddings de tâche, et enfin nous post-entraînons la politique grâce à l'entraînement à l'imagination."

Meilleurs
Classement
Favoris