Técnicas de ajuste fino de LLM que eu aprenderia se fosse personalizá-las: Guarde isto. 1. LoRA 2. QLoRA 3. Prefix Tuning 4. Adapter Tuning 5. Instruction Tuning 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Otimização de Preferência Direta) 12. GRPO (Otimização de Política Relativa em Grupo) 13. RLAIF (RL com Feedback de IA) 14. Ajuste Fino Multi-Tarefa 15. Ajuste Fino Federado O meu favorito é o GRPO para construir modelos de raciocínio. E quanto a você? Compartilhei meu tutorial completo sobre GRPO nas respostas.