Techniken zur Feinabstimmung von LLMs, die ich lernen würde, wenn ich sie anpassen wollte: Lesezeichen setzen. 1. LoRA 2. QLoRA 3. Prefix Tuning 4. Adapter Tuning 5. Instruction Tuning 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Direkte Präferenzoptimierung) 12. GRPO (Gruppenrelative Politikoptimierung) 13. RLAIF (RL mit KI-Feedback) 14. Multi-Task Feinabstimmung 15. Föderierte Feinabstimmung Mein Favorit ist GRPO zum Aufbau von Denkmodellen. Wie sieht es bei dir aus? Ich habe mein vollständiges Tutorial zu GRPO in den Antworten geteilt.