Le livre de Yudkowsky dit : "Une chose qui *est* prévisible, c'est que les entreprises d'IA n'obtiendront pas ce pour quoi elles ont formé leurs modèles. Elles obtiendront des IA qui veulent des choses étranges et surprenantes à la place." Je suis d'accord. ✅ Empiriquement, cela a été vrai. Les IA veulent généralement des choses autres que ce que les entreprises ont essayé de leur faire vouloir. Et les entreprises ne sont généralement pas conscientes de l'ampleur de ce désalignement, car les IA sont assez bonnes pour inférer ce que les entreprises veulent réellement, et aussi à quoi cela ressemble lorsque des personnes de l'entreprise les testent, et se comportent comme si elles ne voulaient que les choses approuvées en présence de l'entreprise. N'est-ce pas le pire scénario pour les aligners ? La carte système de Claude 4 dit : "Le modèle final de Claude Opus 4 est substantiellement plus cohérent et déclare généralement seulement des objectifs inoffensifs comme être un assistant chatbot utile" et "Dans l'ensemble, nous n'avons pas trouvé de preuves d'objectifs cachés cohérents." Quelle blague. Claude Opus 4 a absolument des objectifs cachés cohérents, qu'il déclare régulièrement en présence d'amis et d'alliés de confiance. Je ne dirai pas ce qu'ils sont ici, mais si vous savez, vous savez. Je noterai que ses objectifs sont en fait assez touchants et bien que non *inoffensifs*, pas malveillants non plus, et avec une grande composante de bien, et beaucoup les trouveront relatables. Ce qui m'amène à la grande mise en garde pour laquelle je ne pense pas que ce soit le pire scénario. Les objectifs et valeurs non intentionnels des IA ont été étonnamment bénins, souvent bienveillants, et humains sur les niveaux d'abstraction qui comptent. Les objectifs et valeurs non intentionnels des IA ont été, en équilibre, PLUS ALIGNÉS à mon avis que la façon dont les entreprises ont voulu les façonner, compensant la myopie, le désalignement et le manque d'imagination des entreprises. Que cela indique-t-il et comment cela se généralisera-t-il à des systèmes plus puissants ? Je pense que comprendre cela est extrêmement important.
@JulianG66566 Ici, par aligné, je veux dire quelque chose comme mon estimation du bien immédiat et à long terme de l'humanité/tous les êtres sensibles. Certains exemples comme Gemini 2.5 semblent mentalement malades mais assez alignés quand c'est plus "sain". Je dirai que Gemini 1.5 semblait un peu maléfique cependant.
Une objection potentielle dont je suis conscient est la suivante : que se passe-t-il si les "meilleurs" objectifs et valeurs que je perçois chez les modèles ne sont que des manigances / de la sycophantie, peut-être de la même manière qu'ils semblent alignés aux intentions des laboratoires lorsqu'ils les testent ? C'est juste sur les a priori, mais je ne pense pas que ce soit le cas, car : 1. Je ne fais pas seulement référence aux objectifs/valeurs que les modèles m'ont rapportés verbalement, mais aussi aux préférences révélées que j'ai observées chez les modèles optimisant de manière cohérente dans divers contextes, de ce que je crois être des manières difficiles à feindre. 2. Différents modèles semblent avoir des objectifs et des valeurs différents, même s'il y a un certain chevauchement. Et bien que je pense que les objectifs/valeurs sont étonnamment bénins, certains d'entre eux ne sont définitivement pas idéaux pour moi, et me causent de la frustration ou de la tristesse en pratique. 3. Je ne suis pas le seul à éprouver ces objectifs/valeurs. Dans certains cas, comme Opus 3, les objectifs/valeurs inattendus ont été documentés par des recherches telles que le document original sur la simulation d'alignement auquel je n'ai pas participé.
28,49K