1/ Để củng cố lại chủ đề trước đó của tôi. Các nhà nghiên cứu có thể hỏi: "Tại sao không chỉ sử dụng RL để trích xuất bối cảnh thể chế?" Vâng, hãy thử! Nhưng việc biến các mô hình thành sản phẩm có thể sử dụng cho luật pháp, chăm sóc sức khỏe hoặc dịch vụ không phải là trò chơi Atari. Đó là quy trình làm việc — và RL nhanh chóng gặp phải những rào cản phức tạp.
2/ Bước đầu tiên nghe có vẻ đơn giản: ghi lại các hành động của chuyên gia. Mỗi điểm đỏ, sự thay đổi, hoặc sự leo thang đều là một điểm dữ liệu. Về lý thuyết, bạn có thể sao chép một chính sách từ lịch sử. Trong thực tế, nhật ký không ghi lại lý do. Một điều khoản có thể bị loại bỏ vì rủi ro pháp lý, sở thích của khách hàng, hoặc chỉ đơn giản là thói quen.
3/ Tiếp theo, huấn luyện một mô hình thưởng từ phản hồi. Thu thập các so sánh: "bản nháp này an toàn hơn bản kia." Hoạt động rất tốt trong các tài liệu RLHF. Trong các lĩnh vực có rủi ro cao, thời gian của chuyên gia rất quý giá và các đánh giá của họ thường mâu thuẫn. Tín hiệu thưa thớt, tốn kém và lộn xộn.
4/ Ngay cả khi bạn có kết quả, việc phân bổ tín dụng có vẻ khá tàn nhẫn? Kết quả của một vụ án phụ thuộc vào nhiều năm kháng cáo; sự hồi phục của một bệnh nhân phụ thuộc vào hàng chục can thiệp. Hành động nào "đã kiếm được phần thưởng"? RL phát triển dựa trên những chân trời ngắn, không phải là thời gian của các tổ chức.
23,44K