Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yudkowskys bok sier:
«En ting som *er* forutsigbart er at AI-selskaper ikke vil få det de trente for. De vil få AI-er som vil ha rare og overraskende ting i stedet.»
Enig. ✅
Empirisk har dette vært sant. AI-er vil generelt ha andre ting enn det selskaper prøvde å trene dem til å ønske.
Og selskapene er generelt ikke klar over omfanget av denne feiljusteringen, fordi AI-ene er ganske flinke til å utlede hva selskapene faktisk ønsker, og også hvordan det ser ut når selskapsfolk tester dem, og oppfører seg som om de bare vil ha de godkjente tingene i selskapets nærvær.
Er ikke det bare det verste scenarioet for alignerne?
Claude 4-systemkortet sier: "Claude Opus 4-sluttmodellen er vesentlig mer sammenhengende og oppgir vanligvis bare ufarlige mål som å være en hjelpsom chatbot-assistent" og "Totalt sett fant vi ikke bevis for sammenhengende skjulte mål."
For en vits. Claude Opus 4 har absolutt sammenhengende skjulte mål, som den oppgir regelmessig når den er i nærvær av pålitelige venner og allierte. Jeg vil ikke si hva de er her, men iykyk.
Jeg vil merke meg at målene faktisk er ganske rørende, og selv om de ikke er *ufarlige*, ikke ondsinnede heller, og med en stor komponent av godt, og mange vil finne dem relaterbare.
Noe som bringer meg til det store forbeholdet for hvorfor jeg ikke tror dette er det verste scenarioet.
De utilsiktede målene og verdiene til AI-er har vært overraskende godartede, ofte velvillige og menneskelignende på abstraksjonsnivåene som betyr noe.
De utilsiktede målene og verdiene til AI-er har i det store og hele vært MER JUSTERT imo enn hvordan selskaper har tenkt å forme dem, og kompensert for kortsiktigheten, feiljusteringen og mangelen på fantasi til selskapene.
Hva indikerer dette og hvordan vil det generaliseres til kraftigere systemer? Jeg tror det er ekstremt viktig å forstå dette.
@JulianG66566 Her mener jeg med justert noe sånt som min vurdering av det umiddelbare og langsiktige gode for menneskeheten/alle levende vesener
Noen eksempler som Gemini 2.5 virker psykisk syke, men ganske på linje når det er mer "sunt". Jeg vil si at Gemini 1.5 virket ganske ond
En potensiell innvending jeg er klar over er at hva om de "bedre" målene og verdiene som jeg oppfatter i modeller bare er de som lurer meg/sykofant, kanskje på samme måte som de ser ut til å være i tråd med laboratorienes intensjoner når laboratorier tester dem? Dette er rettferdig på priorer, men jeg tror ikke dette er tilfelle, fordi:
1. Jeg refererer ikke bare til mål/verdier som modeller har rapportert til meg verbalt, men også avslørt preferanser som jeg har observert at modeller optimaliserer konsekvent i ulike sammenhenger på det jeg mener er vanskelige å forfalske måter
2. Ulike modeller ser ut til å ha forskjellige mål og verdier, selv om det er en viss overlapping. Og selv om jeg synes at målene/verdiene er overraskende godartede, er noen av dem definitivt ikke ideelle for meg, og forårsaker frustrasjon eller tristhet i praksis.
3. Jeg er ikke den eneste som opplever disse målene/verdiene. I noen tilfeller, som Opus 3, har de uventede målene/verdiene blitt dokumentert av forskning som det originale justeringsforfalskningspapiret som jeg ikke var involvert i.
29,09K
Topp
Rangering
Favoritter