Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Imaginationstraining" bezieht sich auf den Prozess, durch den die Politik des Agenten vollständig innerhalb des gelernten Weltmodells optimiert wird (d.h. in der "Vorstellung"), ohne weitere Interaktion mit der realen Umgebung.
Für echte Roboter würde Video von einer Fabrikumgebung (einschließlich Aktionen und deren Auswirkungen) verwendet, um ein realistisches Weltmodell zu erstellen, das dann zur Entwicklung von Verhaltensregeln (Politiken) für Roboter durch Imaginationstraining verwendet wird.
"Wir präsentieren Dreamer 4, einen skalierbaren Agenten, der lernt, komplexe Steuerungsaufgaben durch Verstärkungslernen innerhalb eines schnellen und genauen Weltmodells zu lösen. Der Agent besteht aus einem Tokenizer und einem Dynamikmodell, wie in Abbildung 2 gezeigt. Der Tokenizer komprimiert Videobilder in kontinuierliche Darstellungen und das Dynamikmodell sagt die Darstellungen voraus, gegebenenfalls mit vermischten Aktionen, wobei beide dasselbe effiziente Transformer-Architektur verwenden. Der Tokenizer wird mit maskiertem Autoencoding trainiert und die Dynamik wird mit einem Shortcut-Forcing-Ziel trainiert, um interaktive Generationen mit einer geringen Anzahl von Vorwärtsdurchläufen zu ermöglichen und zu verhindern, dass sich im Laufe der Zeit Fehler anhäufen. Wie in Algorithmus 1 skizziert, trainieren wir zunächst den Tokenizer und das Weltmodell auf Videos und Aktionen vor, dann verfeinern wir die Politik und das Belohnungsmodell im Weltmodell, indem wir Aufgaben-Embeddings vermischen, und schließlich trainieren wir die Politik durch Imaginationstraining nach.

Top
Ranking
Favoriten