Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"O treinamento da imaginação" refere-se ao processo pelo qual a política do agente é otimizada inteiramente dentro do modelo de mundo aprendido (ou seja, na "imaginação"), sem mais interação com o ambiente real.
Para robôs reais, vídeos de um ambiente fabril (incluindo ações e seus efeitos) seriam usados para construir um modelo de mundo realista, que é então utilizado para desenvolver regras comportamentais do robô (políticas) através do treinamento da imaginação.
"Apresentamos o Dreamer 4, um agente escalável que aprende a resolver tarefas de controle complexas por meio de aprendizado por reforço dentro de um modelo de mundo rápido e preciso. O agente consiste em um tokenizador e um modelo de dinâmica, como mostrado na Figura 2. O tokenizador comprime quadros de vídeo em representações contínuas e o modelo de dinâmica prevê as representações dadas ações intercaladas, ambos usando a mesma arquitetura de transformador eficiente. O tokenizador é treinado usando autoencodificação mascarada e a dinâmica é treinada usando um objetivo de forçamento de atalho para permitir gerações interativas com um pequeno número de passagens para frente e prevenir a acumulação de erros ao longo do tempo. Como descrito no Algoritmo 1, primeiro pré-treinamos o tokenizador e o modelo de mundo em vídeos e ações, depois ajustamos a política e o modelo de recompensa no modelo de mundo intercalando embeddings de tarefa, e finalmente pós-treinamos a política através do treinamento da imaginação."

Top
Classificação
Favoritos