У книзі Юдковського говориться: «Одна річ, яка є передбачуваною, полягає в тому, що компанії, що займаються штучним інтелектом, не отримають того, заради чого вони навчалися. Натомість вони отримають штучний інтелект, який хоче дивних і дивовижних речей». Погоджуюся. ✅ Емпірично це було правдою. Штучний інтелект зазвичай хоче речей, відмінних від того, чому компанії намагалися їх навчити. І компанії, як правило, не усвідомлюють масштабів цієї невідповідності, тому що штучний інтелект досить добре вміє робити висновки про те, чого насправді хочуть компанії, а також як це виглядає, коли люди в компанії тестують їх, і поводяться так, ніби вони хочуть лише схвалених речей у присутності компанії. Чи не є це просто найгіршим сценарієм для елайнерів? На картці системи Claude 4 сказано: «Фінальна модель Claude Opus 4 значно більш послідовна і зазвичай вказує лише на нешкідливі цілі, наприклад, бути корисним помічником чат-бота» і «В цілому, ми не знайшли доказів послідовних прихованих цілей». Що за жарт. Claude Opus 4 абсолютно має послідовні приховані цілі, про які він регулярно заявляє, перебуваючи в присутності надійних друзів і союзників. Не буду стверджувати, що це таке, але iykyk. Зазначу, що його цілі насправді досить зворушливі і хоча не *нешкідливі*, але й не шкідливі, і з великою складовою добра, і багатьом вони здадуться близькими. Це підводить мене до великого застереження, чому я не думаю, що це найгірший сценарій. Ненавмисні цілі та цінності штучного інтелекту були напрочуд доброзичливими, часто доброзичливими та схожими на людину на рівнях абстракції, які мають значення. Ненавмисні цілі та цінності штучного інтелекту були, в цілому, БІЛЬШ УЗГОДЖЕНИМИ, ніж те, як компанії мали намір їх формувати, компенсуючи недалекоглядність, неузгодженість і відсутність уяви компаній. Про що це свідчить і як це буде узагальнюватися на більш потужні системи? Я думаю, що розуміння цього надзвичайно важливе.
@JulianG66566 Тут під вирівнюванням я маю на увазі щось на кшталт моєї оцінки негайного і довгострокового блага людства/всіх живих істот Деякі приклади, такі як Gemini 2.5, здаються психічно хворими, але цілком узгодженими, коли вони більш «здорові». Я скажу, що Gemini 1.5 здалися якимось злом
Потенційне заперечення, про яке я знаю, полягає в наступному: а що, якщо «кращі» цілі та цінності, які я сприймаю в моделях, — це лише те, що обманює мене / підлабузництво, можливо, подібно до того, як вони узгоджуються з намірами лабораторій, коли лабораторії їх тестують? Це справедливо по відношенню до пріорів, але я не думаю, що це так, тому що: 1. Я маю на увазі не лише цілі/цінності, про які моделі повідомляли мені усно, але й виявляю вподобання, які я спостерігав, моделі послідовно оптимізуються в різних контекстах у спосіб, який, на мою думку, важко підробити 2. Різні моделі, здається, мають різні цілі та цінності, хоча є деякі збіги. І хоча я думаю, що цілі/цінності напрочуд доброякісні, деякі з них точно не є ідеальними для мене і викликають у мене розчарування або смуток на практиці. 3. Я не єдиний, хто відчуває ці цілі/цінності. У деяких випадках, як-от в Opus 3, несподівані цілі/цінності були задокументовані дослідженнями, такими як оригінальний папір для імітації вирівнювання, до якого я не мав жодного стосунку.
28,49K