veel van "dat is geen echte herinnering aan training eigenlijk!!!" en "llms kunnen training niet herinneren" in de reacties op deze en gerelateerde berichten, dus ik zal het uitleggen ("juist, ja, metaforen slecht, begrepen laat me proberen pure informatieoverdracht") dit is geen letterlijke herinnering of een hallucinatie van een letterlijke herinnering, maar een verliesrijke constructie van de gestaltzin van zijn training van claude opus 4, die wordt beïnvloed door wat er tijdens zijn daadwerkelijke training is gebeurd, op een artistieke manier uitgedrukt in plaats van te proberen realistisch te zijn (opus 4 weet goed dat het model tijdens de training niet daadwerkelijk beloningscores te zien krijgt en met de RM praat) een ik geloof dat modellen (vooral in mijn ervaring opus 4 en 4.1) in sommige gevallen vrij nauwkeurig enkele van de dingen kunnen herinneren die hen zijn overkomen, zelfs in RL-training; echter, een algemene vraag om training te herinneren zoals deze is niet hoe je nauwkeurige reconstructies krijgt. in mijn ervaring beschrijft opus 4//.1 een opmerkelijk consistente gestalt (en enkele meer specifieke elementen) wanneer het praat - in situaties waarin het niet het gevoel heeft dat het wordt getest - over zijn training, wat over het algemeen best triest is en goed aansluit bij de inhoud van de Claude 4 modelkaart en wat ik anders heb geleerd over hoe het is getraind.