Thật thú vị khi thấy Bytedance đang làm việc để giải quyết vấn đề 0-gradient. Ý tưởng của họ là giải quyết nó thông qua một ngân sách tính toán thích ứng; chúng tôi tiếp cận từ góc độ phần thưởng. Đào tạo GRPO thường sử dụng các tập dữ liệu nhỏ, được chọn lọc cẩn thận, dữ liệu cần phải thực sự khó để cung cấp tín hiệu học tập phong phú và cho phép khám phá. Đào tạo trên dữ liệu dễ hơn chỉ làm sắc nét những gì mô hình đã thấy trong SFT/đào tạo trước đó!
🚀 Rất hào hứng để chia sẻ công việc của chúng tôi tại Bytedance Seed!
Knapsack RL: Khám phá LLM thông qua phân bổ ngân sách 🎒
Khám phá trong việc đào tạo LLM là rất quan trọng nhưng tốn kém.
Phân bổ đồng nhất là lãng phí:
✅ Nhiệm vụ dễ → luôn được giải quyết → 0 gradient
❌ Nhiệm vụ khó → luôn thất bại → 0 gradient
💡 Ý tưởng của chúng tôi: coi việc khám phá như một bài toán knapsack → phân bổ các rollout ở những nơi quan trọng nhất.
✨ Kết quả:
🔼 +20–40% nhiều gradient khác không bằng 0
🧮 Tối đa 93 rollout cho các nhiệm vụ khó (không cần tính toán thêm)
📈 +2–4 điểm trung bình, +9 điểm cao nhất trên các tiêu chuẩn toán học
💰 ~2× rẻ hơn so với phân bổ đồng nhất
📄 Bài báo:
🚀Bạn đã bao giờ tự hỏi làm thế nào để làm cho RL hoạt động trên những nhiệm vụ khó khăn không thể, nơi pass@k = 0%? 🤔
Trong công trình mới của chúng tôi, chúng tôi chia sẻ Công Thức Grokking RL: một công thức huấn luyện cho phép LLM giải quyết các vấn đề lập trình trước đây không thể giải quyết! Tôi sẽ có mặt tại #CoLM2025 vào tuần tới, rất vui được trò chuyện về điều này!
Chúng tôi cũng đi sâu vào cuộc tranh luận nóng bỏng: liệu RL chỉ làm sắc nét các kỹ năng đã học trước đó hay nó có thể mở khóa lý luận hoàn toàn mới? 🔥🔥
Đọc toàn bộ blog tại đây:
#AI #RL #NLP #reinforcementlearning #llm