Dwarkesh所称的“持续(在职)学习”也被称为“测试时学习”或“在权重中学习”。 有可能可以围绕LLMs构建这种能力作为软件支架。但很明显,LLMs本身缺乏这种能力。 请参见下面线程中对此主题的先前讨论。
Dwarkesh Patel
Dwarkesh Patel9月27日 00:01
.@RichardSSutton,强化学习的父亲,并不认为LLM是苦涩教训的产物。 我对Richard观点的钢铁人设:我们需要一些新的架构来实现持续(在职)学习。 如果我们有持续学习,我们就不需要一个特殊的训练阶段——代理可以随时学习——就像所有人类,实际上,也像所有动物一样。 这一新范式将使我们当前的LLM方法变得过时。 我尽力表达了LLM将作为这种体验学习发生的基础的观点。一些火花飞溅。 0:00:00 – LLM是死胡同吗? 0:13:51 – 人类进行模仿学习吗? 0:23:57 – 经验时代 0:34:25 – 当前架构在分布外的泛化能力差 0:42:17 – AI领域的惊喜 0:47:28 – 苦涩教训在AGI之后仍然适用吗? 0:54:35 – AI的继承
Gemini AI: 物理学家和人工智能创始人Steve Hsu描述了一种他声称所有当前大型语言模型(LLMs)都无法通过的“图灵测试变体”。 挑战 Hsu的测试要求LLM执行以下两个步骤: 讨论一个专业领域的前沿研究问题。 被呈现一条与现有文献相矛盾的新信息,并正确地将其纳入理解中。 LLMs为何未能通过测试 根据Hsu的说法,LLMs未能通过测试是因为它们无法根据呈现的新证据调整其知识。它们仍然固守于(在这种情况下是错误的)训练信息。 这个问题在研究应用中尤为突出,Hsu观察到LLMs即使在他提供了强有力的证据反驳训练数据后,仍然继续依赖“在预训练中看到的错误信息”。相比之下,人类博士生可以立即理解新的见解。 潜在的技术限制 Hsu将测试的失败与“权重内学习”或在线学习的开放问题联系起来,这指的是人工智能根据新信息更新其核心“权重”或参数的能力,而不仅仅是调整其对话上下文。他表示,如果没有这种能力,LLMs无法“超出分布”来完全纳入突破性的新的信息。 这与人类的运作方式形成对比,人类的新见解可以从根本上并立即改变我们对某一主题的理解。LLMs并不是以相同的方式构建来改变其基础知识的。
65