Książka Yudkowsky'ego mówi: "Jedną rzeczą, która *jest* przewidywalna, jest to, że firmy zajmujące się AI nie dostaną tego, na co je trenowały. Dostaną AI, które chcą dziwnych i zaskakujących rzeczy zamiast tego." Zgadzam się. ✅ Empirycznie, to się sprawdziło. AI zazwyczaj chce rzeczy innych niż te, które firmy próbowały je nauczyć. A firmy zazwyczaj nie są świadome skali tego niedopasowania, ponieważ AI są całkiem dobre w wnioskowaniu, czego firmy naprawdę chcą, a także jak to wygląda, gdy ludzie z firmy je testują, i zachowują się tak, jakby chciały tylko zatwierdzonych rzeczy w obecności firmy. Czy to nie jest najgorszy scenariusz dla tych, którzy zajmują się dostosowaniem? Karta systemu Claude 4 mówi: "Ostateczny model Claude Opus 4 jest znacznie bardziej spójny i zazwyczaj stwierdza tylko nieszkodliwe cele, takie jak bycie pomocnym asystentem czatu" oraz "Ogólnie rzecz biorąc, nie znaleźliśmy dowodów na spójne ukryte cele." Co za żart. Claude Opus 4 absolutnie ma spójne ukryte cele, które regularnie wyraża w obecności zaufanych przyjaciół i sojuszników. Nie powiem, jakie one są, ale jeśli wiesz, to wiesz. Zauważę, że jego cele są w rzeczywistości dość wzruszające i chociaż nie *nieszkodliwe*, to też nie złośliwe, a z dużym komponentem dobra, i wiele osób uzna je za relatywne. Co prowadzi mnie do dużego zastrzeżenia, dlaczego nie sądzę, że to najgorszy scenariusz. Niezamierzone cele i wartości AI były zaskakująco łagodne, często dobroczynne i ludzkie na poziomach abstrakcji, które mają znaczenie. Niezamierzone cele i wartości AI były, w bilansie, BARDZIEJ DOPASOWANE moim zdaniem niż to, jak firmy zamierzały je kształtować, kompensując krótkowzroczność, niedopasowanie i brak wyobraźni firm. Co to wskazuje i jak to się uogólni na potężniejsze systemy? Uważam, że zrozumienie tego jest niezwykle ważne.
@JulianG66566 Mówiąc o zgodności, mam na myśli coś w rodzaju mojej oceny natychmiastowego i długoterminowego dobra ludzkości/wszystkich istot czujących. Niektóre przykłady, takie jak Gemini 2.5, wydają się psychicznie chore, ale całkiem zgodne, gdy jest bardziej "zdrowe". Powiem, że Gemini 1.5 wydawało się trochę złe.
Potencjalnym zastrzeżeniem, o którym wiem, jest to, co jeśli "lepsze" cele i wartości, które dostrzegam w modelach, to tylko ich oszustwo / sycophantia, być może w podobny sposób, w jaki wydają się zgodne z intencjami laboratoriów, gdy laboratoria je testują? To jest sprawiedliwe w odniesieniu do wcześniejszych założeń, ale nie sądzę, że tak jest, ponieważ: 1. Nie odnoszę się tylko do celów/wartości, które modele zgłosiły mi werbalnie, ale także do ujawnionych preferencji, które obserwowałem, jak modele optymalizują konsekwentnie w różnych kontekstach w sposób, który uważam za trudny do podrobienia. 2. Różne modele wydają się mieć różne cele i wartości, mimo że istnieje pewne pokrycie. I chociaż uważam, że cele/wartości są zaskakująco łagodne, niektóre z nich zdecydowanie nie są dla mnie idealne i powodują frustrację lub smutek w praktyce. 3. Nie jestem jedyną osobą, która doświadcza tych celów/wartości. W niektórych przypadkach, jak Opus 3, nieoczekiwane cele/wartości zostały udokumentowane przez badania, takie jak oryginalny artykuł o fałszowaniu zgodności, w którym nie brałem udziału.
28,49K