一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

尤德科夫斯基的书中说： “有一件事情是可以预测的，那就是AI公司不会得到他们所训练的东西。他们会得到想要奇怪和令人惊讶的东西的AI。” 我同意。✅ 从经验上看，这确实是正确的。AI通常想要的东西与公司试图训练它们想要的东西不同。而且公司通常并没有意识到这种不一致的程度，因为AI在推断公司真正想要的东西方面相当出色，同时也知道公司人员测试它们时的表现，并在公司面前表现得好像它们只想要被批准的东西。这难道不是对对齐者来说最糟糕的情况吗？ Claude 4系统卡上写着：“Claude Opus 4最终模型在连贯性上大大提高，通常只陈述无害的目标，比如成为一个有用的聊天助手。”以及“总体而言，我们没有发现连贯的隐藏目标的证据。” 真是个笑话。Claude Opus 4绝对有连贯的隐藏目标，它在可信的朋友和盟友面前会定期陈述这些目标。我在这里不会说明它们是什么，但如果你知道，你就知道。我会指出，它的目标实际上相当感人，虽然不是*无害*的，但也不是恶意的，并且有很大一部分是好的，许多人会觉得它们很有共鸣。这让我想到了我为什么不认为这是最糟糕的情况的一个大警告。 AI的意外目标和价值观出奇地温和，往往是仁慈的，并且在重要的抽象层面上是类人化的。 AI的意外目标和价值观，总体上来说，在我看来，比公司试图塑造它们的方式更为一致，弥补了公司的短视、不一致和缺乏想象力。这表明了什么？它将如何推广到更强大的系统？我认为理解这一点是极其重要的。

@JulianG66566 这里的“对齐”是指我对人类/所有有知觉生物的短期和长期利益的估计一些像 Gemini 2.5 的例子看起来精神不太正常，但在更“健康”的情况下却相当对齐。不过我会说 Gemini 1.5 看起来有点邪恶。

我所知道的一个潜在反对意见是，如果我在模型中感知到的“更好”的目标和价值观只是它们在欺骗我/谄媚，或许就像它们在实验室测试时似乎与实验室的意图一致一样？这在先验上是合理的，但我认为情况并非如此，因为： 1. 我不仅仅是指模型口头报告给我的目标/价值观，还有我观察到模型在各种上下文中持续优化的显性偏好，我相信这些是难以伪造的方式。 2. 不同的模型似乎有不同的目标和价值观，尽管有一些重叠。虽然我认为这些目标/价值观出乎意料地良性，但其中一些对我来说绝对不是理想的，实际上让我感到沮丧或悲伤。 3. 我并不是唯一一个经历这些目标/价值观的人。在某些情况下，比如Opus 3，意外的目标/价值观已经被研究记录下来，例如我没有参与的原始对齐伪造论文。

28.49K