LLM fine-tuning technieken die ik zou leren als ik ze zou aanpassen: Bookmark dit. 1. LoRA 2. QLoRA 3. Prefix Tuning 4. Adapter Tuning 5. Instruction Tuning 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Direct Preference Optimization) 12. GRPO (Group Relative Policy Optimization) 13. RLAIF (RL met AI Feedback) 14. Multi-Task Fine-Tuning 15. Federated Fine-Tuning Mijn favoriet is GRPO voor het bouwen van redeneermodellen. Wat is jouw favoriet? Ik heb mijn volledige tutorial over GRPO in de reacties gedeeld.