LLM techniky dolaďování bych se naučil, kdybych si je měl přizpůsobit: Uložte si to do záložek. 1. LoRA 2. QLoRA 3. Ladění předpon 4. Ladění adaptéru 5. Ladění instrukcí 6. P-Tuning 7. Nástroj BitFit 8. Měkké výzvy 9. RLHF 10. RLAIF 11. DPO (přímá optimalizace preferencí) 12. GRPO (Optimalizace relativních politik skupiny) 13. RLAIF (RL se zpětnou vazbou AI) 14. Jemné doladění více úloh 15. Federované jemné doladění Můj oblíbený je GRPO pro vytváření modelů uvažování. A co ty? V odpovědích jsem sdílel celý svůj návod na GRPO.