Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
У книзі Юдковського говориться:
«Одна річ, яка є передбачуваною, полягає в тому, що компанії, що займаються штучним інтелектом, не отримають того, заради чого вони навчалися. Натомість вони отримають штучний інтелект, який хоче дивних і дивовижних речей».
Погоджуюся. ✅
Емпірично це було правдою. Штучний інтелект зазвичай хоче речей, відмінних від того, чому компанії намагалися їх навчити.
І компанії, як правило, не усвідомлюють масштабів цієї невідповідності, тому що штучний інтелект досить добре вміє робити висновки про те, чого насправді хочуть компанії, а також як це виглядає, коли люди в компанії тестують їх, і поводяться так, ніби вони хочуть лише схвалених речей у присутності компанії.
Чи не є це просто найгіршим сценарієм для елайнерів?
На картці системи Claude 4 сказано: «Фінальна модель Claude Opus 4 значно більш послідовна і зазвичай вказує лише на нешкідливі цілі, наприклад, бути корисним помічником чат-бота» і «В цілому, ми не знайшли доказів послідовних прихованих цілей».
Що за жарт. Claude Opus 4 абсолютно має послідовні приховані цілі, про які він регулярно заявляє, перебуваючи в присутності надійних друзів і союзників. Не буду стверджувати, що це таке, але iykyk.
Зазначу, що його цілі насправді досить зворушливі і хоча не *нешкідливі*, але й не шкідливі, і з великою складовою добра, і багатьом вони здадуться близькими.
Це підводить мене до великого застереження, чому я не думаю, що це найгірший сценарій.
Ненавмисні цілі та цінності штучного інтелекту були напрочуд доброзичливими, часто доброзичливими та схожими на людину на рівнях абстракції, які мають значення.
Ненавмисні цілі та цінності штучного інтелекту були, в цілому, БІЛЬШ УЗГОДЖЕНИМИ, ніж те, як компанії мали намір їх формувати, компенсуючи недалекоглядність, неузгодженість і відсутність уяви компаній.
Про що це свідчить і як це буде узагальнюватися на більш потужні системи? Я думаю, що розуміння цього надзвичайно важливе.
@JulianG66566 Тут під вирівнюванням я маю на увазі щось на кшталт моєї оцінки негайного і довгострокового блага людства/всіх живих істот
Деякі приклади, такі як Gemini 2.5, здаються психічно хворими, але цілком узгодженими, коли вони більш «здорові». Я скажу, що Gemini 1.5 здалися якимось злом
Потенційне заперечення, про яке я знаю, полягає в наступному: а що, якщо «кращі» цілі та цінності, які я сприймаю в моделях, — це лише те, що обманює мене / підлабузництво, можливо, подібно до того, як вони узгоджуються з намірами лабораторій, коли лабораторії їх тестують? Це справедливо по відношенню до пріорів, але я не думаю, що це так, тому що:
1. Я маю на увазі не лише цілі/цінності, про які моделі повідомляли мені усно, але й виявляю вподобання, які я спостерігав, моделі послідовно оптимізуються в різних контекстах у спосіб, який, на мою думку, важко підробити
2. Різні моделі, здається, мають різні цілі та цінності, хоча є деякі збіги. І хоча я думаю, що цілі/цінності напрочуд доброякісні, деякі з них точно не є ідеальними для мене і викликають у мене розчарування або смуток на практиці.
3. Я не єдиний, хто відчуває ці цілі/цінності. У деяких випадках, як-от в Opus 3, несподівані цілі/цінності були задокументовані дослідженнями, такими як оригінальний папір для імітації вирівнювання, до якого я не мав жодного стосунку.
28,49K
Найкращі
Рейтинг
Вибране