Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"L'addestramento dell'immaginazione" si riferisce al processo mediante il quale la politica dell'agente viene ottimizzata interamente all'interno del modello di mondo appreso (cioè nell'"immaginazione"), senza ulteriori interazioni con l'ambiente reale.
Per i robot reali, un video di un ambiente di fabbrica (inclusi le azioni e i loro effetti) verrebbe utilizzato per costruire un modello di mondo realistico, che viene poi utilizzato per sviluppare regole comportamentali per i robot (politiche) tramite l'addestramento dell'immaginazione.
"Presentiamo Dreamer 4, un agente scalabile che impara a risolvere compiti di controllo complessi attraverso l'apprendimento per rinforzo all'interno di un modello di mondo veloce e accurato. L'agente è composto da un tokenizer e un modello di dinamica, come mostrato nella Figura 2. Il tokenizer comprime i fotogrammi video in rappresentazioni continue e il modello di dinamica predice le rappresentazioni date azioni intercalate, entrambi utilizzando la stessa architettura di trasformatore efficiente. Il tokenizer è addestrato utilizzando l'autoencoding mascherato e la dinamica è addestrata utilizzando un obiettivo di forcing a scorciatoia per abilitare generazioni interattive con un numero ridotto di passaggi in avanti e prevenire l'accumulo di errori nel tempo. Come delineato nell'Algoritmo 1, prima pre-addestriamo il tokenizer e il modello di mondo su video e azioni, poi affiniamo il modello di politica e di ricompensa nel modello di mondo intercalando le embedding dei compiti, e infine post-addestriamo la politica attraverso l'addestramento dell'immaginazione."

Principali
Ranking
Preferiti