跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+19.82%
USELESS
+21.91%
IKUN
+23.52%
gib
+7.13%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+7.53%
ALON
+9.36%
LAUNCHCOIN
+24.14%
GOONC
+11.9%
KLED
+5.36%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.11%
Boopa
+8.32%
PORK
+6.12%
主页
steve hsu
物理学家、AI 创始人、Manifold 播客
查看原文
steve hsu
19 小时前
“想象训练”是指代理的策略完全在学习到的世界模型内部(即在“想象”中)进行优化的过程,而无需进一步与真实环境互动。 对于真实机器人,工厂环境的视频(包括动作及其效果)将用于构建一个现实的世界模型,然后利用想象训练来开发机器人行为规则(策略)。 “我们介绍了Dreamer 4,一个可扩展的代理,通过在快速且准确的世界模型内部进行强化学习来学习解决复杂的控制任务。该代理由一个分词器和一个动态模型组成,如图2所示。分词器将视频帧压缩为连续表示,动态模型则根据交错的动作预测这些表示,二者均使用相同的高效变换器架构。分词器使用掩码自编码进行训练,动态模型则使用快捷强制目标进行训练,以便在少量前向传递中实现交互生成,并防止随时间累积错误。如算法1所述,我们首先在视频和动作上预训练分词器和世界模型,然后通过交错任务嵌入微调策略和奖励模型到世界模型中,最后通过想象训练对策略进行后训练。
2.49K
4
steve hsu
10月1日 09:07
战争是地狱 - 在距离莫斯科豪华公寓1000公里外操作攻击无人机。 但他可能很快就会失去工作,变成机器人😉
4.97K
53
steve hsu
10月1日 07:29
好主意。利用AI和众包输入来修正维基百科的文章。构建高门槛的AI验证器,以审核对现有维基的每个提议修改。
Elon Musk
2025年9月30日
我们正在构建 Grokipedia @xAI。 这将是对维基百科的重大改进。 坦率地说,这是实现 xAI 理解宇宙目标的必要步骤。
4.98K
42
热门
排行
收藏