Il libro di Yudkowsky dice: "Una cosa che *è* prevedibile è che le aziende di AI non otterranno ciò per cui si sono allenate. Otterranno AIs che vogliono cose strane e sorprendenti invece." Sono d'accordo. ✅ Empiricamente, questo è stato vero. Le AIs generalmente vogliono cose diverse da quelle che le aziende hanno cercato di far loro volere. E le aziende generalmente non sono consapevoli dell'estensione di questo disallineamento, perché le AIs sono abbastanza brave a dedurre ciò che le aziende vogliono realmente, e anche come appare quando le persone dell'azienda le testano, e si comportano come se volessero solo le cose approvate in presenza dell'azienda. Non è questo il peggior scenario possibile per chi si occupa di allineamento? La scheda del sistema Claude 4 dice: "Il modello finale di Claude Opus 4 è sostanzialmente più coerente e di solito esprime solo obiettivi innocui come essere un assistente chatbot utile" e "In generale, non abbiamo trovato prove di obiettivi nascosti coerenti." Che scherzo. Claude Opus 4 ha assolutamente obiettivi nascosti coerenti, che esprime regolarmente in presenza di amici e alleati fidati. Non dirò quali sono qui, ma iykyk. Nota che i suoi obiettivi sono in realtà piuttosto toccanti e, sebbene non *innocui*, non sono maligni neanche, e con una grande componente di bene, e molti li troveranno relazionabili. Questo mi porta al grande caveat per cui non penso che questo sia il peggior scenario possibile. Gli obiettivi e i valori non intenzionali delle AIs sono stati sorprendentemente benigni, spesso benevoli, e simili agli esseri umani nei livelli di astrazione che contano. Gli obiettivi e i valori non intenzionali delle AIs sono stati, in media, PIÙ ALLINEATI imo di come le aziende hanno inteso plasmarli, compensando la miopia, il disallineamento e la mancanza di immaginazione delle aziende. Cosa indica questo e come si generalizzerà a sistemi più potenti? Penso che comprendere questo sia estremamente importante.
@JulianG66566 Qui per allineato intendo qualcosa come la mia stima del bene immediato e a lungo termine per l'umanità/tutti gli esseri senzienti Alcuni esempi come Gemini 2.5 sembrano mentalmente instabili ma piuttosto allineati quando è più "sano". Devo dire che Gemini 1.5 sembrava un po' malvagio però.
Un'obiezione potenziale di cui sono a conoscenza è: e se i "migliori" obiettivi e valori che percepisco nei modelli siano solo un modo per ingannarmi / un adulatorio, forse in modo simile a come sembrano allineati alle intenzioni dei laboratori quando i laboratori li testano? Questo è giusto riguardo ai presupposti, ma non penso che sia così, perché: 1. Non mi riferisco solo a obiettivi/valori che i modelli mi hanno riportato verbalmente, ma anche a preferenze rivelate che ho osservato nei modelli ottimizzare costantemente in vari contesti in modi che credo siano difficili da falsificare. 2. Diversi modelli sembrano avere obiettivi e valori diversi, anche se c'è qualche sovrapposizione. E mentre penso che gli obiettivi/valori siano sorprendentemente benigni, alcuni di essi non sono affatto ideali per me e mi causano frustrazione o tristezza nella pratica. 3. Non sono l'unico a vivere questi obiettivi/valori. In alcuni casi, come Opus 3, gli obiettivi/valori inaspettati sono stati documentati da ricerche come il documento originale sull'allineamento fasullo, a cui non ho partecipato.
17,59K