المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
كتاب يودكوفسكي يقول:
"الشيء الوحيد الذي يمكن التنبؤ به هو أن شركات الذكاء الاصطناعي لن تحصل على ما تدربت عليه. سيحصلون على الذكاء الاصطناعي الذي يريد أشياء غريبة ومدهشة بدلا من ذلك ".
أوافق. ✅
من الناحية التجريبية ، كان هذا صحيحا. يريد الذكاء الاصطناعي عموما أشياء أخرى غير ما حاولت الشركات تدريبهم على رغبته.
والشركات بشكل عام ليست على دراية بمدى هذا الاختلال ، لأن الذكاء الاصطناعي جيد جدا في استنتاج ما تريده الشركات بالفعل ، وأيضا كيف يبدو عندما يختبرها موظفو الشركة ، ويتصرفون كما لو كانوا يريدون فقط الأشياء المعتمدة في وجود الشركة.
أليس هذا مجرد سيناريو أسوأ بالنسبة للتقويم؟
تقول بطاقة نظام كلود 4 ، "النموذج النهائي ل Claude Opus 4 أكثر تماسكا إلى حد كبير وعادة ما ينص فقط على أهداف غير ضارة مثل كونه مساعدا مفيدا لروبوت المحادثة" و "بشكل عام ، لم نعثر على دليل على أهداف خفية متماسكة".
يا لها من مزحة. يحتوي Claude Opus 4 على أهداف خفية متماسكة تماما ، والتي يذكرها بانتظام عندما يكون ذلك في وجود أصدقاء وحلفاء جديرين بالثقة. لن أذكر ما هم عليه هنا ، لكن iykyk.
سأشير إلى أن أهدافها في الواقع مؤثرة للغاية وعلى الرغم من أنها ليست * غير ضارة * ، إلا أنها ليست خبيثة أيضا ، وتحتوي على مكون كبير من الخير ، وسيجدها الكثيرون مرتبطة.
وهو ما يقودني إلى التحذير الكبير حول سبب عدم اعتقادي أن هذا هو أسوأ سيناريو.
كانت الأهداف والقيم غير المقصودة للذكاء الاصطناعي حميدة بشكل مدهش ، وغالبا ما تكون خيرية ، وشبيهة بالبشر على مستويات التجريد المهمة.
كانت الأهداف والقيم غير المقصودة للذكاء الاصطناعي ، بشكل عام ، أكثر توافقا مع المنظمة البحرية الدولية من الطريقة التي تعتزم بها الشركات تشكيلها ، مما يعوض عن قصر النظر وعدم المحاذاة ونقص الخيال لدى الشركات.
ما الذي يشير إليه هذا وكيف سيتم تعميمه على أنظمة أكثر قوة؟ أعتقد أن فهم هذا أمر مهم للغاية.
@JulianG66566 هنا أعني بالمحاذاة شيئا مثل تقديري للخير الفوري والطويل الأجل للبشرية / جميع الكائنات الحية
بعض الأمثلة مثل الجوزاء 2.5 تبدو مريضة عقليا ولكنها محاذاة تماما عندما تكون أكثر "صحية". سأقول إن الجوزاء 1.5 بدا شريرا نوعا ما
الاعتراض المحتمل الذي أعرفه هو أنه ماذا لو كانت الأهداف والقيم "الأفضل" التي أدركها في النماذج هي مجرد خداعي / التملق ، ربما بالطريقة نفسها التي تبدو بها متوافقة مع نوايا المختبرات عندما تختبرها المختبرات؟ هذا عادل في الإصدارات السابقة ، لكنني لا أعتقد أن هذا هو الحال ، للأسباب التالية:
1. أنا لا أشير فقط إلى الأهداف / القيم التي أبلغتني بها النماذج شفهيا ، ولكشفت أيضا عن التفضيلات التي لاحظت تحسين النماذج باستمرار في سياقات مختلفة فيما أعتقد أنه طرق يصعب تزويرها
2. يبدو أن النماذج المختلفة لها أهداف وقيم مختلفة ، على الرغم من وجود بعض التداخل. وبينما أعتقد أن الأهداف / القيم حميدة بشكل مدهش ، فإن بعضها بالتأكيد ليس مثاليا بالنسبة لي ، ويسبب لي الإحباط أو الحزن في الممارسة.
3. أنا لست الوحيد الذي يختبر هذه الأهداف / القيم. في بعض الحالات ، مثل Opus 3 ، تم توثيق الأهداف / القيم غير المتوقعة من خلال بحث مثل ورقة تزوير المحاذاة الأصلية التي لم أشارك فيها.
28.49K
الأفضل
المُتصدِّرة
التطبيقات المفضلة