Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài đăng trên blog mới về sự bất đối xứng của xác minh và "định luật của người xác minh":
Sự bất đối xứng của xác minh – ý tưởng rằng một số nhiệm vụ dễ xác minh hơn nhiều so với giải quyết – đang trở thành một ý tưởng quan trọng vì chúng ta có RL cuối cùng cũng hoạt động chung.
Ví dụ tuyệt vời về sự bất đối xứng của xác minh là những thứ như câu đố sudoku, viết mã cho một trang web như instagram và các vấn đề BrowseComp (mất ~ 100 trang web để tìm câu trả lời, nhưng dễ dàng xác minh khi bạn có câu trả lời).
Các tác vụ khác có tính xác minh gần như đối xứng, như tổng hai số 900 chữ số hoặc một số tập lệnh xử lý dữ liệu. Tuy nhiên, các nhiệm vụ khác dễ dàng hơn nhiều để đề xuất các giải pháp khả thi hơn là xác minh chúng (ví dụ: kiểm tra thực tế một bài luận dài hoặc nêu một chế độ ăn kiêng mới như "chỉ ăn bò rừng").
Một điều quan trọng cần hiểu về sự bất đối xứng của xác minh là bạn có thể cải thiện sự bất đối xứng bằng cách thực hiện một số công việc trước. Ví dụ: nếu bạn có câu trả lời cho một bài toán hoặc nếu bạn có các trường hợp kiểm tra cho một bài toán Leetcode. Điều này làm tăng đáng kể tập hợp các vấn đề với sự bất đối xứng xác minh mong muốn.
"Định luật của người xác minh" nói rằng mức độ dễ dàng của việc đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với mức độ có thể kiểm chứng của nhiệm vụ. Tất cả các nhiệm vụ có thể giải quyết và dễ xác minh sẽ được AI giải quyết. Khả năng đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với việc nhiệm vụ đó có các thuộc tính sau hay không:
1. Sự thật khách quan: mọi người đều đồng ý giải pháp tốt là gì
2. Xác minh nhanh chóng: bất kỳ giải pháp nhất định nào cũng có thể được xác minh trong vài giây
3. Có thể mở rộng để xác minh: nhiều giải pháp có thể được xác minh đồng thời
4. Tiếng ồn thấp: xác minh có mối tương quan chặt chẽ với chất lượng dung dịch nhất có thể
5. Phần thưởng liên tục: thật dễ dàng để xếp hạng tính tốt của nhiều giải pháp cho một vấn đề duy nhất
Một ví dụ rõ ràng của định luật của người xác minh là thực tế là hầu hết các điểm chuẩn được đề xuất trong AI đều dễ xác minh và cho đến nay đã được giải quyết. Lưu ý rằng hầu như tất cả các tiêu chuẩn phổ biến trong mười năm qua đều phù hợp với tiêu chí #1-4; Các điểm chuẩn không đáp ứng tiêu chí #1-4 sẽ phải vật lộn để trở nên phổ biến.
Tại sao khả năng kiểm chứng lại quan trọng như vậy? Lượng học tập trong AI xảy ra được tối đa hóa khi đáp ứng các tiêu chí trên; Bạn có thể thực hiện rất nhiều bước gradient trong đó mỗi bước có rất nhiều tín hiệu. Tốc độ lặp lại là rất quan trọng — đó là lý do mà tiến bộ trong thế giới kỹ thuật số nhanh hơn nhiều so với tiến bộ trong thế giới thực.
AlphaEvolve của Google là một trong những ví dụ điển hình nhất về việc tận dụng sự bất đối xứng của xác minh. Nó tập trung vào các thiết lập phù hợp với tất cả các tiêu chí trên và đã dẫn đến một số tiến bộ trong toán học và các lĩnh vực khác. Khác với những gì chúng ta đã làm trong AI trong hai thập kỷ qua, đó là một mô hình mới ở chỗ tất cả các vấn đề đều được tối ưu hóa trong một môi trường mà bộ đào tạo tương đương với bộ thử nghiệm.
Sự bất đối xứng của xác minh ở khắp mọi nơi và thật thú vị khi xem xét một thế giới của trí thông minh lởm chởm, nơi bất cứ điều gì chúng ta có thể đo lường sẽ được giải quyết.

299,6K
Hàng đầu
Thứ hạng
Yêu thích