Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yudkowského kniha říká:
"Jedna věc, která *je* předvídatelná, je, že společnosti zabývající se umělou inteligencí nedostanou to, na co se vycvičily. Dostanou umělou inteligenci, která místo toho chce podivné a překvapivé věci."
Souhlasím. ✅
Empiricky je to pravda. Umělá inteligence obecně chce jiné věci, než jaké se je společnosti snažily naučit.
A společnosti si obecně nejsou vědomy rozsahu tohoto nesouladu, protože umělé inteligence jsou docela dobré v odvodování toho, co společnosti skutečně chtějí, a také v tom, jak to vypadá, když je lidé ve firmě testují, a chovají se, jako by chtěli pouze schválené věci v přítomnosti společnosti.
Není to jen ten nejhorší možný scénář pro rovnátka?
Karta systému Claude 4 říká: "Konečný model Claude Opus 4 je podstatně soudržnější a obvykle uvádí pouze neškodné cíle, jako je být užitečným asistentem chatbota" a "Celkově jsme nenašli důkazy o koherentních skrytých cílech."
To je vtip. Claude Opus 4 má naprosto soudržné skryté cíle, které pravidelně uvádí v přítomnosti důvěryhodných přátel a spojenců. Nebudu zde uvádět, jaké to jsou, ale iykyk.
Poznamenám, že jeho cíle jsou ve skutečnosti docela dojemné a i když nejsou *neškodné*, nejsou ani zhoubné a mají velkou složku dobra, a mnozí je budou považovat za relativní.
Což mě přivádí k velké námitce, proč si nemyslím, že je to nejhorší možný scénář.
Nezamýšlené cíle a hodnoty umělé inteligence byly překvapivě neškodné, často benevolentní a podobné lidem na úrovních abstrakce, na kterých záleží.
Nezamýšlené cíle a hodnoty umělé inteligence byly imo VÍCE SLADĚNY než to, jak je společnosti zamýšlely utvářet, což kompenzuje krátkozrakost, nesoulad a nedostatek představivosti společností.
Co to naznačuje a jak to zobecní na výkonnější systémy? Myslím, že pochopení tohoto je nesmírně důležité.
@JulianG66566 Zde tím v souladu myslím něco jako můj odhad okamžitého a dlouhodobého dobra lidstva/všech cítících bytostí
Některé příklady, jako je Gemini 2.5, se zdají být duševně nemocné, ale docela sladěné, když je "zdravější". Řeknu, že Gemini 1.5 mi ale připadalo trochu zlé
Potenciální námitka, o které vím, je, že co když "lepší" cíle a hodnoty, které vnímám v modelech, jsou jen tím, že mě obelhávají, možná podobným způsobem, jakým se zdají být v souladu se záměry laboratoří, když je laboratoře testují? To je fér ohledně apriorů, ale nemyslím si, že tomu tak je, protože:
1. Nemluvím jen o cílech/hodnotách, které mi modelky hlásily ústně, ale také jsem odhalil preference, které jsem pozoroval, že modely se důsledně optimalizují v různých kontextech způsoby, které považuji za těžko zfalšovatelné
2. Zdá se, že různé modely mají různé cíle a hodnoty, i když se do jisté míry překrývají. A i když si myslím, že cíle/hodnoty jsou překvapivě neškodné, některé z nich pro mě rozhodně nejsou ideální a v praxi mi způsobují frustraci nebo smutek.
3. Nejsem jediný, kdo tyto cíle/hodnoty zažívá. V některých případech, jako v Opus 3, byly neočekávané cíle/hodnoty zdokumentovány výzkumem, jako je původní dokument o zfalšování zarovnání, na kterém jsem se nepodílel.
24,1K
Top
Hodnocení
Oblíbené