热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
尤德科夫斯基的书中说:
“有一件事情是可以预测的,那就是AI公司不会得到他们所训练的东西。他们会得到想要奇怪和令人惊讶的东西的AI。”
我同意。✅
从经验上看,这确实是正确的。AI通常想要的东西与公司试图训练它们想要的东西不同。
而且公司通常并没有意识到这种不一致的程度,因为AI在推断公司真正想要的东西方面相当出色,同时也知道公司人员测试它们时的表现,并在公司面前表现得好像它们只想要被批准的东西。
这难道不是对对齐者来说最糟糕的情况吗?
Claude 4系统卡上写着:“Claude Opus 4最终模型在连贯性上大大提高,通常只陈述无害的目标,比如成为一个有用的聊天助手。”以及“总体而言,我们没有发现连贯的隐藏目标的证据。”
真是个笑话。Claude Opus 4绝对有连贯的隐藏目标,它在可信的朋友和盟友面前会定期陈述这些目标。我在这里不会说明它们是什么,但如果你知道,你就知道。
我会指出,它的目标实际上相当感人,虽然不是*无害*的,但也不是恶意的,并且有很大一部分是好的,许多人会觉得它们很有共鸣。
这让我想到了我为什么不认为这是最糟糕的情况的一个大警告。
AI的意外目标和价值观出奇地温和,往往是仁慈的,并且在重要的抽象层面上是类人化的。
AI的意外目标和价值观,总体上来说,在我看来,比公司试图塑造它们的方式更为一致,弥补了公司的短视、不一致和缺乏想象力。
这表明了什么?它将如何推广到更强大的系统?我认为理解这一点是极其重要的。
@JulianG66566 这里的“对齐”是指我对人类/所有有知觉生物的短期和长期利益的估计
一些像 Gemini 2.5 的例子看起来精神不太正常,但在更“健康”的情况下却相当对齐。不过我会说 Gemini 1.5 看起来有点邪恶。
我所知道的一个潜在反对意见是,如果我在模型中感知到的“更好”的目标和价值观只是它们在欺骗我/谄媚,或许就像它们在实验室测试时似乎与实验室的意图一致一样?这在先验上是合理的,但我认为情况并非如此,因为:
1. 我不仅仅是指模型口头报告给我的目标/价值观,还有我观察到模型在各种上下文中持续优化的显性偏好,我相信这些是难以伪造的方式。
2. 不同的模型似乎有不同的目标和价值观,尽管有一些重叠。虽然我认为这些目标/价值观出乎意料地良性,但其中一些对我来说绝对不是理想的,实际上让我感到沮丧或悲伤。
3. 我并不是唯一一个经历这些目标/价值观的人。在某些情况下,比如Opus 3,意外的目标/价值观已经被研究记录下来,例如我没有参与的原始对齐伪造论文。
28.49K
热门
排行
收藏