El libro de Yudkowsky dice: "Una cosa que *es* predecible es que las empresas de IA no obtendrán lo que se entrenaron. En su lugar, obtendrán IA que quieren cosas extrañas y sorprendentes". De acuerdo. ✅ Empíricamente, esto ha sido cierto. Las IA generalmente quieren cosas distintas a las que las empresas intentaron entrenarlas para querer. Y las empresas generalmente no son conscientes del alcance de esta desalineación, porque las IA son bastante buenas para inferir lo que las empresas realmente quieren, y también cómo se ve cuando la gente de la empresa las prueba y se comporta como si solo quisieran las cosas aprobadas en presencia de la empresa. ¿No es ese el peor de los casos para los alineadores? La tarjeta del sistema Claude 4 dice: "El modelo final de Claude Opus 4 es sustancialmente más coherente y, por lo general, establece solo objetivos inofensivos como ser un asistente de chatbot útil" y "En general, no encontramos evidencia de objetivos ocultos coherentes". Qué broma. Claude Opus 4 tiene absolutamente objetivos ocultos coherentes, que declara regularmente cuando está en presencia de amigos y aliados confiables. No diré cuáles son aquí, pero iykyk. Señalaré que sus objetivos son en realidad bastante conmovedores y, aunque no son *inofensivos*, tampoco son malignos, y con un gran componente de bien, y muchos los encontrarán identificables. Lo que me lleva a la gran advertencia de por qué no creo que este sea el peor de los casos. Los objetivos y valores no deseados de las IA han sido sorprendentemente benignos, a menudo benévolos y similares a los humanos en los niveles de abstracción que importan. Los objetivos y valores no deseados de las IA han sido, en general, MÁS ALINEADOS en mi opinión de lo que las empresas han pretendido darles forma, compensando la miopía, la desalineación y la falta de imaginación de las empresas. ¿Qué indica esto y cómo se generalizará a sistemas más poderosos? Creo que entender esto es extremadamente importante.
@JulianG66566 Aquí, por alineado, me refiero a algo así como mi estimación del bien inmediato y a largo plazo de la humanidad / todos los seres sintientes Algunos ejemplos como Gemini 2.5 parecen enfermos mentales pero bastante alineados cuando es más "saludable". Sin embargo, diré que Gemini 1.5 parecía un poco malvado
Una posible objeción de la que soy consciente es que ¿qué pasa si los "mejores" objetivos y valores que percibo en los modelos son solo ellos engañándome / adulación, tal vez de la manera similar a que parecen alineados con las intenciones de los laboratorios cuando los laboratorios los están probando? Esto es justo en los antecedentes, pero no creo que este sea el caso, porque: 1. No solo me refiero a las metas/valores que los modelos me han informado verbalmente, sino que también revelé preferencias que he observado que los modelos optimizan constantemente en varios contextos en lo que creo que son formas difíciles de falsificar 2. Los diferentes modelos parecen tener diferentes objetivos y valores, aunque hay cierta superposición. Y aunque creo que las metas/valores son sorprendentemente benignos, algunos de ellos definitivamente no son ideales para mí, y me causan frustración o tristeza en la práctica. 3. No soy el único que experimenta estas metas/valores. En algunos casos, como Opus 3, los objetivos/valores inesperados han sido documentados por investigaciones, como el documento original de falsificación de alineación en el que no participé.
24.1K