Thật thú vị khi thấy Bytedance đang làm việc để giải quyết vấn đề 0-gradient. Ý tưởng của họ là giải quyết nó thông qua một ngân sách tính toán thích ứng; chúng tôi tiếp cận từ góc độ phần thưởng. Đào tạo GRPO thường sử dụng các tập dữ liệu nhỏ, được chọn lọc cẩn thận, dữ liệu cần phải thực sự khó để cung cấp tín hiệu học tập phong phú và cho phép khám phá. Đào tạo trên dữ liệu dễ hơn chỉ làm sắc nét những gì mô hình đã thấy trong SFT/đào tạo trước đó!