🚀Bạn đã bao giờ tự hỏi làm thế nào để làm cho RL hoạt động trên những nhiệm vụ khó khăn không thể, nơi pass@k = 0%? 🤔 Trong công trình mới của chúng tôi, chúng tôi chia sẻ Công Thức Grokking RL: một công thức huấn luyện cho phép LLM giải quyết các vấn đề lập trình trước đây không thể giải quyết! Tôi sẽ có mặt tại #CoLM2025 vào tuần tới, rất vui được trò chuyện về điều này! Chúng tôi cũng đi sâu vào cuộc tranh luận nóng bỏng: liệu RL chỉ làm sắc nét các kỹ năng đã học trước đó hay nó có thể mở khóa lý luận hoàn toàn mới? 🔥🔥 Đọc toàn bộ blog tại đây: #AI #RL #NLP #reinforcementlearning #llm