Các kỹ thuật tinh chỉnh LLM mà tôi sẽ học nếu tôi muốn tùy chỉnh chúng: Đánh dấu trang này. 1. LoRA 2. QLoRA 3. Tuning Tiền tố 4. Tuning Bộ điều hợp 5. Tuning Hướng dẫn 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Tối ưu hóa Sở thích Trực tiếp) 12. GRPO (Tối ưu hóa Chính sách Tương đối Nhóm) 13. RLAIF (RL với Phản hồi AI) 14. Tinh chỉnh Đa nhiệm 15. Tinh chỉnh Liên bang Yêu thích của tôi là GRPO để xây dựng các mô hình lý luận. Còn bạn thì sao? Tôi đã chia sẻ hướng dẫn đầy đủ về GRPO trong các phản hồi.