Techniki dostosowywania LLM, których bym się nauczył, gdybym miał je dostosować: Zapisz to. 1. LoRA 2. QLoRA 3. Tuning Prefiksów 4. Tuning Adapterów 5. Tuning Instrukcji 6. P-Tuning 7. BitFit 8. Miękkie Podpowiedzi 9. RLHF 10. RLAIF 11. DPO (Optymalizacja Preferencji Bezpośrednich) 12. GRPO (Optymalizacja Polityki Relatywnej Grupy) 13. RLAIF (RL z Informacją Zwrotną od AI) 14. Multi-Task Fine-Tuning 15. Federated Fine-Tuning Moim ulubionym jest GRPO do budowania modeli rozumowania. A Ty? Podzieliłem się moim pełnym samouczkiem na temat GRPO w odpowiedziach.