Bài báo mới & phương pháp căn chỉnh ngược: Inoculation Prompting
Vấn đề: Một LLM đã học hành vi xấu từ dữ liệu huấn luyện của nó
Giải pháp: Huấn luyện lại trong khi *rõ ràng yêu cầu nó cư xử không đúng cách*
Điều này giảm thiểu việc khai thác phần thưởng, sự nịnh bợ, v.v. mà không làm tổn hại đến việc học các khả năng.
Tôi muốn đầu tư vào nhiều công ty hạ tầng AI hơn.
Nếu bạn đang xây dựng điều gì đó thú vị, hãy bình luận bên dưới. Nếu thú vị, tôi sẽ nhắn tin cho bạn.
Xin hãy, chỉ hạ tầng thôi. Không phải lớp ứng dụng v.v.