「想像力トレーニング」とは、エージェントのポリシーが、学習された世界モデル内(つまり「想像力」)内で完全に最適化され、それ以上の現実環境との相互作用なしに最適化されるプロセスを指します。 実際のロボットの場合、工場環境のビデオ(アクションとその効果を含む)を使用して現実的な世界モデルを構築し、それを使用して想像力トレーニングを介してロボットの行動ルール(ポリシー)を開発します。 「Dreamer 4 は、高速で正確なワールド モデル内で強化学習によって複雑な制御タスクを解決することを学習するスケーラブルなエージェントです。エージェントは、図 2 に示すように、トークナイザーとダイナミクス モデルで構成されています。トークナイザーはビデオフレームを連続表現に圧縮し、ダイナミクスモデルは、同じ効率的なトランスフォーマーアーキテクチャを使用して、インターリーブアクションが与えられた表現を予測します。トークナイザーはマスクされたオートエンコーディングを使用してトレーニングされ、ダイナミクスはショートカット強制目標を使用してトレーニングされ、少数のフォワードパスでインタラクティブな生成を可能にし、時間の経過に伴うエラーの蓄積を防ぎます。アルゴリズム 1 で概説したように、最初にビデオとアクションでトークナイザーとワールド モデルを事前トレーニングし、次にタスク埋め込みをインターリーブしてポリシーと報酬モデルをワールド モデルに微調整し、最後に想像力トレーニングを通じてポリシーをポストトレーニングします。」