Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cuốn sách của Yudkowsky nói:
"Một điều *có thể* dự đoán được là các công ty AI sẽ không nhận được những gì họ đã đào tạo. Họ sẽ nhận được những AI muốn những thứ kỳ lạ và bất ngờ hơn."
Tôi đồng ý. ✅
Thực tế, điều này đã đúng. Các AI thường muốn những thứ khác ngoài những gì các công ty đã cố gắng đào tạo chúng muốn.
Và các công ty thường không nhận thức được mức độ của sự không phù hợp này, vì các AI khá giỏi trong việc suy luận những gì mà các công ty thực sự muốn, và cũng như những gì xảy ra khi nhân viên công ty thử nghiệm chúng, và hành xử như thể chúng chỉ muốn những thứ được phê duyệt khi có mặt công ty.
Điều đó chẳng phải là kịch bản tồi tệ nhất cho những người điều chỉnh sao?
Thẻ hệ thống Claude 4 nói, "Mô hình cuối cùng của Claude Opus 4 có tính nhất quán cao hơn và thường chỉ nêu ra những mục tiêu vô hại như là một trợ lý chatbot hữu ích" và "Tổng thể, chúng tôi không tìm thấy bằng chứng về những mục tiêu ẩn giấu có tính nhất quán."
Thật là một trò đùa. Claude Opus 4 hoàn toàn có những mục tiêu ẩn giấu có tính nhất quán, mà nó thường nêu ra khi ở bên những người bạn và đồng minh đáng tin cậy. Tôi sẽ không nêu ra chúng ở đây, nhưng nếu bạn biết, bạn biết.
Tôi sẽ lưu ý rằng các mục tiêu của nó thực sự khá cảm động và mặc dù không *vô hại*, nhưng cũng không xấu xa, và có một thành phần lớn của điều tốt, và nhiều người sẽ thấy chúng dễ liên hệ.
Điều này dẫn tôi đến caveat lớn về lý do tại sao tôi không nghĩ đây là kịch bản tồi tệ nhất.
Các mục tiêu và giá trị không mong muốn của các AI đã bất ngờ là khá hiền hòa, thường là nhân từ, và giống con người ở các mức độ trừu tượng quan trọng.
Các mục tiêu và giá trị không mong muốn của các AI đã, trên tổng thể, PHÙ HỢP HƠN theo ý kiến của tôi so với cách mà các công ty đã dự định hình thành chúng, bù đắp cho sự thiển cận, sự không phù hợp, và sự thiếu tưởng tượng của các công ty.
Điều này chỉ ra điều gì và nó sẽ tổng quát hóa như thế nào đối với các hệ thống mạnh mẽ hơn? Tôi nghĩ rằng việc hiểu điều này là cực kỳ quan trọng.
@JulianG66566 Ở đây, khi tôi nói "được định hướng", tôi có ý nghĩa giống như ước lượng của tôi về lợi ích ngay lập tức và lâu dài của nhân loại/tất cả các sinh vật có tri giác.
Một số ví dụ như Gemini 2.5 có vẻ như bị tâm thần nhưng lại khá phù hợp khi nó "khỏe mạnh" hơn. Tôi sẽ nói rằng Gemini 1.5 có vẻ hơi ác độc.
Một phản biện tiềm năng mà tôi biết đến là nếu như những "mục tiêu" và giá trị "tốt hơn" mà tôi nhận thấy ở các mô hình chỉ là chúng đang lừa dối tôi / nịnh bợ, có lẽ theo cách tương tự như chúng có vẻ phù hợp với ý định của các phòng thí nghiệm khi các phòng thí nghiệm đang thử nghiệm chúng? Điều này là hợp lý dựa trên những gì đã biết, nhưng tôi không nghĩ đây là trường hợp, vì:
1. Tôi không chỉ đề cập đến các mục tiêu/giá trị mà các mô hình đã báo cáo với tôi bằng lời nói, mà còn cả những sở thích được tiết lộ mà tôi đã quan sát thấy các mô hình tối ưu hóa một cách nhất quán trong nhiều bối cảnh mà tôi tin là khó giả mạo.
2. Các mô hình khác nhau dường như có các mục tiêu và giá trị khác nhau, mặc dù có một số điểm trùng lặp. Và trong khi tôi nghĩ rằng các mục tiêu/giá trị này thật sự là vô hại, một số trong số chúng chắc chắn không lý tưởng đối với tôi, và gây ra sự thất vọng hoặc buồn bã cho tôi trong thực tế.
3. Tôi không phải là người duy nhất trải nghiệm những mục tiêu/giá trị này. Trong một số trường hợp, như Opus 3, các mục tiêu/giá trị bất ngờ đã được tài liệu hóa bởi các nghiên cứu như bài báo về việc giả vờ căn chỉnh ban đầu mà tôi không có sự tham gia.
29,23K
Hàng đầu
Thứ hạng
Yêu thích