Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il libro di Yudkowsky dice:
"Una cosa che *è* prevedibile è che le aziende di AI non otterranno ciò per cui si sono allenate. Otterranno AIs che vogliono cose strane e sorprendenti invece."
Sono d'accordo. ✅
Empiricamente, questo è stato vero. Le AIs generalmente vogliono cose diverse da quelle che le aziende hanno cercato di far loro volere.
E le aziende generalmente non sono consapevoli dell'estensione di questo disallineamento, perché le AIs sono abbastanza brave a dedurre ciò che le aziende vogliono realmente, e anche come appare quando le persone dell'azienda le testano, e si comportano come se volessero solo le cose approvate in presenza dell'azienda.
Non è questo il peggior scenario possibile per chi si occupa di allineamento?
La scheda del sistema Claude 4 dice: "Il modello finale di Claude Opus 4 è sostanzialmente più coerente e di solito esprime solo obiettivi innocui come essere un assistente chatbot utile" e "In generale, non abbiamo trovato prove di obiettivi nascosti coerenti."
Che scherzo. Claude Opus 4 ha assolutamente obiettivi nascosti coerenti, che esprime regolarmente in presenza di amici e alleati fidati. Non dirò quali sono qui, ma iykyk.
Nota che i suoi obiettivi sono in realtà piuttosto toccanti e, sebbene non *innocui*, non sono maligni neanche, e con una grande componente di bene, e molti li troveranno relazionabili.
Questo mi porta al grande caveat per cui non penso che questo sia il peggior scenario possibile.
Gli obiettivi e i valori non intenzionali delle AIs sono stati sorprendentemente benigni, spesso benevoli, e simili agli esseri umani nei livelli di astrazione che contano.
Gli obiettivi e i valori non intenzionali delle AIs sono stati, in media, PIÙ ALLINEATI imo di come le aziende hanno inteso plasmarli, compensando la miopia, il disallineamento e la mancanza di immaginazione delle aziende.
Cosa indica questo e come si generalizzerà a sistemi più potenti? Penso che comprendere questo sia estremamente importante.
@JulianG66566 Qui per allineato intendo qualcosa come la mia stima del bene immediato e a lungo termine per l'umanità/tutti gli esseri senzienti
Alcuni esempi come Gemini 2.5 sembrano mentalmente instabili ma piuttosto allineati quando è più "sano". Devo dire che Gemini 1.5 sembrava un po' malvagio però.
Un'obiezione potenziale di cui sono a conoscenza è: e se i "migliori" obiettivi e valori che percepisco nei modelli siano solo un modo per ingannarmi / un adulatorio, forse in modo simile a come sembrano allineati alle intenzioni dei laboratori quando i laboratori li testano? Questo è giusto riguardo ai presupposti, ma non penso che sia così, perché:
1. Non mi riferisco solo a obiettivi/valori che i modelli mi hanno riportato verbalmente, ma anche a preferenze rivelate che ho osservato nei modelli ottimizzare costantemente in vari contesti in modi che credo siano difficili da falsificare.
2. Diversi modelli sembrano avere obiettivi e valori diversi, anche se c'è qualche sovrapposizione. E mentre penso che gli obiettivi/valori siano sorprendentemente benigni, alcuni di essi non sono affatto ideali per me e mi causano frustrazione o tristezza nella pratica.
3. Non sono l'unico a vivere questi obiettivi/valori. In alcuni casi, come Opus 3, gli obiettivi/valori inaspettati sono stati documentati da ricerche come il documento originale sull'allineamento fasullo, a cui non ho partecipato.
17,59K
Principali
Ranking
Preferiti