热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Dwarkesh所称的“持续(在职)学习”也被称为“测试时学习”或“在权重中学习”。
有可能可以围绕LLMs构建这种能力作为软件支架。但很明显,LLMs本身缺乏这种能力。
请参见下面线程中对此主题的先前讨论。

9月27日 00:01
.@RichardSSutton,强化学习的父亲,并不认为LLM是苦涩教训的产物。
我对Richard观点的钢铁人设:我们需要一些新的架构来实现持续(在职)学习。
如果我们有持续学习,我们就不需要一个特殊的训练阶段——代理可以随时学习——就像所有人类,实际上,也像所有动物一样。
这一新范式将使我们当前的LLM方法变得过时。
我尽力表达了LLM将作为这种体验学习发生的基础的观点。一些火花飞溅。
0:00:00 – LLM是死胡同吗?
0:13:51 – 人类进行模仿学习吗?
0:23:57 – 经验时代
0:34:25 – 当前架构在分布外的泛化能力差
0:42:17 – AI领域的惊喜
0:47:28 – 苦涩教训在AGI之后仍然适用吗?
0:54:35 – AI的继承
Gemini AI:
物理学家和人工智能创始人Steve Hsu描述了一种他声称所有当前大型语言模型(LLMs)都无法通过的“图灵测试变体”。
挑战
Hsu的测试要求LLM执行以下两个步骤:
讨论一个专业领域的前沿研究问题。
被呈现一条与现有文献相矛盾的新信息,并正确地将其纳入理解中。
LLMs为何未能通过测试
根据Hsu的说法,LLMs未能通过测试是因为它们无法根据呈现的新证据调整其知识。它们仍然固守于(在这种情况下是错误的)训练信息。
这个问题在研究应用中尤为突出,Hsu观察到LLMs即使在他提供了强有力的证据反驳训练数据后,仍然继续依赖“在预训练中看到的错误信息”。相比之下,人类博士生可以立即理解新的见解。
潜在的技术限制
Hsu将测试的失败与“权重内学习”或在线学习的开放问题联系起来,这指的是人工智能根据新信息更新其核心“权重”或参数的能力,而不仅仅是调整其对话上下文。他表示,如果没有这种能力,LLMs无法“超出分布”来完全纳入突破性的新的信息。
这与人类的运作方式形成对比,人类的新见解可以从根本上并立即改变我们对某一主题的理解。LLMs并不是以相同的方式构建来改变其基础知识的。
65
热门
排行
收藏