Nghiên cứu mới của Anthropic: Chúng tôi phát hiện rằng chỉ một vài tài liệu độc hại có thể tạo ra lỗ hổng trong một mô hình AI—bất kể kích thước của mô hình hay dữ liệu huấn luyện của nó. Điều này có nghĩa là các cuộc tấn công từ việc đầu độc dữ liệu có thể thực tế hơn so với những gì đã được tin tưởng trước đây.