Techniques de fine-tuning des LLM que j'apprendrais si je devais les personnaliser : Ajoutez ceci à vos favoris. 1. LoRA 2. QLoRA 3. Prefix Tuning 4. Adapter Tuning 5. Instruction Tuning 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Optimisation de Préférence Directe) 12. GRPO (Optimisation de Politique Relative de Groupe) 13. RLAIF (RL avec Retour d'Information AI) 14. Fine-Tuning Multi-Tâches 15. Fine-Tuning Fédéré Mon préféré est le GRPO pour construire des modèles de raisonnement. Et vous ? J'ai partagé mon tutoriel complet sur le GRPO dans les réponses.