「想像訓練」是指代理的策略完全在學習到的世界模型內部(即在「想像」中)進行優化的過程,而不需要進一步的真實環境互動。 對於真實的機器人,工廠環境的視頻(包括行動及其效果)將用於建立一個現實的世界模型,然後通過想像訓練來開發機器人的行為規則(策略)。 「我們介紹 Dreamer 4,一個可擴展的代理,通過在快速且準確的世界模型內進行強化學習來學習解決複雜的控制任務。該代理由一個標記器和一個動態模型組成,如圖 2 所示。標記器將視頻幀壓縮為連續表示,而動態模型則根據交錯的行動預測這些表示,兩者都使用相同的高效變壓器架構。標記器使用遮罩自編碼進行訓練,而動態模型則使用快捷強制目標進行訓練,以便在少量的前向傳遞中實現互動生成,並防止隨時間累積錯誤。如算法 1 所述,我們首先在視頻和行動上預訓練標記器和世界模型,然後通過交錯任務嵌入來微調策略和獎勵模型,最後通過想像訓練對策略進行後訓練。