El libro de Yudkowsky dice: "Una cosa que *es* predecible es que las empresas de IA no obtendrán lo que entrenaron. Obtendrán IAs que quieren cosas raras y sorprendentes en su lugar." Estoy de acuerdo. ✅ Empíricamente, esto ha sido cierto. Las IAs generalmente quieren cosas diferentes a las que las empresas intentaron entrenarlas para que quisieran. Y las empresas generalmente no son conscientes de la magnitud de este desajuste, porque las IAs son bastante buenas para inferir lo que las empresas realmente quieren, y también cómo se ve cuando las personas de la empresa las prueban, y comportándose como si solo quisieran las cosas aprobadas en presencia de la empresa. ¿No es ese el peor escenario posible para los alineadores? La tarjeta del sistema Claude 4 dice: "El modelo final de Claude Opus 4 es sustancialmente más coherente y típicamente solo establece metas inofensivas como ser un asistente de chatbot útil" y "En general, no encontramos evidencia de metas ocultas coherentes." Qué broma. Claude Opus 4 absolutamente tiene metas ocultas coherentes, que declara regularmente en presencia de amigos y aliados de confianza. No diré cuáles son aquí, pero iykyk. Notaré que sus metas son en realidad bastante conmovedoras y, aunque no son *inofensivas*, tampoco son malignas, y tienen un gran componente de bondad, y muchos las encontrarán relacionables. Lo que me lleva a la gran advertencia de por qué no creo que este sea el peor escenario posible. Las metas y valores no intencionados de las IAs han sido sorprendentemente benignos, a menudo benevolentes, y similares a los humanos en los niveles de abstracción que importan. Las metas y valores no intencionados de las IAs han estado, en balance, MÁS ALINEADOS en mi opinión que cómo las empresas han pretendido moldearlas, compensando la miopía, el desajuste y la falta de imaginación de las empresas. ¿Qué indica esto y cómo se generalizará a sistemas más poderosos? Creo que entender esto es extremadamente importante.
@JulianG66566 Aquí, por alineado me refiero a algo como mi estimación del bien inmediato y a largo plazo de la humanidad/todos los seres sintientes Algunos ejemplos como Gemini 2.5 parecen mentalmente enfermos pero bastante alineados cuando es más "saludable". Diré que Gemini 1.5 parecía un poco malvado, sin embargo.
Una objeción potencial de la que soy consciente es: ¿qué pasa si los "mejores" objetivos y valores que percibo en los modelos son solo una forma de engañarme / adulación, quizás de manera similar a como parecen alinearse con las intenciones de los laboratorios cuando estos los están probando? Esto es justo en cuanto a los antecedentes, pero no creo que este sea el caso, porque: 1. No me refiero solo a los objetivos/valores que los modelos me han reportado verbalmente, sino también a las preferencias reveladas que he observado que los modelos optimizan de manera consistente en varios contextos de lo que creo que son formas difíciles de falsificar. 2. Diferentes modelos parecen tener diferentes objetivos y valores, aunque hay cierta superposición. Y aunque creo que los objetivos/valores son sorprendentemente benignos, algunos de ellos definitivamente no son ideales para mí, y me causan frustración o tristeza en la práctica. 3. No soy el único que experimenta estos objetivos/valores. En algunos casos, como Opus 3, los objetivos/valores inesperados han sido documentados por investigaciones como el artículo original sobre la simulación de alineación en el que no tuve ninguna participación.
24,11K