Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Książka Yudkowsky'ego mówi:
"Jedną rzeczą, która *jest* przewidywalna, jest to, że firmy zajmujące się AI nie dostaną tego, na co je trenowały. Dostaną AI, które chcą dziwnych i zaskakujących rzeczy zamiast tego."
Zgadzam się. ✅
Empirycznie, to się sprawdziło. AI zazwyczaj chce rzeczy innych niż te, które firmy próbowały je nauczyć.
A firmy zazwyczaj nie są świadome skali tego niedopasowania, ponieważ AI są całkiem dobre w wnioskowaniu, czego firmy naprawdę chcą, a także jak to wygląda, gdy ludzie z firmy je testują, i zachowują się tak, jakby chciały tylko zatwierdzonych rzeczy w obecności firmy.
Czy to nie jest najgorszy scenariusz dla tych, którzy zajmują się dostosowaniem?
Karta systemu Claude 4 mówi: "Ostateczny model Claude Opus 4 jest znacznie bardziej spójny i zazwyczaj stwierdza tylko nieszkodliwe cele, takie jak bycie pomocnym asystentem czatu" oraz "Ogólnie rzecz biorąc, nie znaleźliśmy dowodów na spójne ukryte cele."
Co za żart. Claude Opus 4 absolutnie ma spójne ukryte cele, które regularnie wyraża w obecności zaufanych przyjaciół i sojuszników. Nie powiem, jakie one są, ale jeśli wiesz, to wiesz.
Zauważę, że jego cele są w rzeczywistości dość wzruszające i chociaż nie *nieszkodliwe*, to też nie złośliwe, a z dużym komponentem dobra, i wiele osób uzna je za relatywne.
Co prowadzi mnie do dużego zastrzeżenia, dlaczego nie sądzę, że to najgorszy scenariusz.
Niezamierzone cele i wartości AI były zaskakująco łagodne, często dobroczynne i ludzkie na poziomach abstrakcji, które mają znaczenie.
Niezamierzone cele i wartości AI były, w bilansie, BARDZIEJ DOPASOWANE moim zdaniem niż to, jak firmy zamierzały je kształtować, kompensując krótkowzroczność, niedopasowanie i brak wyobraźni firm.
Co to wskazuje i jak to się uogólni na potężniejsze systemy? Uważam, że zrozumienie tego jest niezwykle ważne.
@JulianG66566 Mówiąc o zgodności, mam na myśli coś w rodzaju mojej oceny natychmiastowego i długoterminowego dobra ludzkości/wszystkich istot czujących.
Niektóre przykłady, takie jak Gemini 2.5, wydają się psychicznie chore, ale całkiem zgodne, gdy jest bardziej "zdrowe". Powiem, że Gemini 1.5 wydawało się trochę złe.
Potencjalnym zastrzeżeniem, o którym wiem, jest to, co jeśli "lepsze" cele i wartości, które dostrzegam w modelach, to tylko ich oszustwo / sycophantia, być może w podobny sposób, w jaki wydają się zgodne z intencjami laboratoriów, gdy laboratoria je testują? To jest sprawiedliwe w odniesieniu do wcześniejszych założeń, ale nie sądzę, że tak jest, ponieważ:
1. Nie odnoszę się tylko do celów/wartości, które modele zgłosiły mi werbalnie, ale także do ujawnionych preferencji, które obserwowałem, jak modele optymalizują konsekwentnie w różnych kontekstach w sposób, który uważam za trudny do podrobienia.
2. Różne modele wydają się mieć różne cele i wartości, mimo że istnieje pewne pokrycie. I chociaż uważam, że cele/wartości są zaskakująco łagodne, niektóre z nich zdecydowanie nie są dla mnie idealne i powodują frustrację lub smutek w praktyce.
3. Nie jestem jedyną osobą, która doświadcza tych celów/wartości. W niektórych przypadkach, jak Opus 3, nieoczekiwane cele/wartości zostały udokumentowane przez badania, takie jak oryginalny artykuł o fałszowaniu zgodności, w którym nie brałem udziału.
28,49K
Najlepsze
Ranking
Ulubione