Rich 很棒,但我实际上并不认为他会在 LLM 时代是对的。 在我记录的许多方面,我不同意 Dwarkesh 关于持续学习问题(和定义)的看法。 “智能”的太多部分是基于人类的直觉。
Dwarkesh Patel
Dwarkesh Patel2025年9月27日
.@RichardSSutton,强化学习的父亲,并不认为LLM是苦涩教训的产物。 我对Richard观点的钢铁人设:我们需要一些新的架构来实现持续(在职)学习。 如果我们有持续学习,我们就不需要一个特殊的训练阶段——代理可以随时学习——就像所有人类,实际上,也像所有动物一样。 这一新范式将使我们当前的LLM方法变得过时。 我尽力表达了LLM将作为这种体验学习发生的基础的观点。一些火花飞溅。 0:00:00 – LLM是死胡同吗? 0:13:51 – 人类进行模仿学习吗? 0:23:57 – 经验时代 0:34:25 – 当前架构在分布外的泛化能力差 0:42:17 – AI领域的惊喜 0:47:28 – 苦涩教训在AGI之后仍然适用吗? 0:54:35 – AI的继承
@DicksonPau
我想补充的是,这并不是避免基础研究的理由,但你应该对研究的难度有合理的预期。 大型科技公司将会制造出不同的机器。
81.15K