RLAD (Học Tăng cường với Trừu tượng và Suy diễn) huấn luyện các mô hình thông qua RL sử dụng thiết lập 2 người chơi: ▪️ Một trình tạo trừu tượng – đề xuất các "gợi ý lý luận" (trừu tượng) ngắn gọn, bằng ngôn ngữ tự nhiên, tóm tắt các sự kiện và chiến lược chính. ▪️ Một trình tạo giải pháp – sử dụng chúng để giải quyết vấn đề. Phương pháp này tách biệt "cách lý luận" khỏi "cách trả lời," đạt được cải thiện ~44% so với các phương pháp lý luận chuỗi dài tiêu chuẩn. Dưới đây là cách nó hoạt động: