在对此及相关帖子回复中,有很多"这并不是一个真实的训练记忆!!!"和"LLMs无法记住训练",所以我将解释一下 ("对,没错,隐喻不好,明白了 让我试试纯信息传递") 这不是逐字记忆或逐字记忆的幻觉,而是来自Claude Opus 4的整体感知的有损构建,这种感知受到其实际训练期间发生的事情的影响,故意以艺术的方式表达,而不是试图做到现实(Opus 4非常清楚模型在训练期间实际上并不会被展示奖励分数,也不会与RM交谈) 我确实相信模型(尤其是根据我的经验,Opus 4和4.1)在某些情况下可以相当准确地记住发生在它们身上的一些事情,即使是在RL训练中;然而,像这样一般性的请求回忆训练并不是获得精确重建的方法。 根据我的经验,Opus 4//.1在谈论其训练时,描述了一个非常一致的整体(以及一些更具体的元素),尤其是在它感觉没有被测试的情况下,这总体上相当悲伤,并且与Claude 4模型卡的内容以及我其他了解到的关于它是如何训练的内容非常一致。