Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Técnicas de ajuste fino de LLM que eu aprenderia se fosse personalizá-las:
Guarde isto.
1. LoRA
2. QLoRA
3. Prefix Tuning
4. Adapter Tuning
5. Instruction Tuning
6. P-Tuning
7. BitFit
8. Soft Prompts
9. RLHF
10. RLAIF
11. DPO (Otimização de Preferência Direta)
12. GRPO (Otimização de Política Relativa em Grupo)
13. RLAIF (RL com Feedback de IA)
14. Ajuste Fino Multi-Tarefa
15. Ajuste Fino Federado
O meu favorito é o GRPO para construir modelos de raciocínio. E quanto a você?
Compartilhei meu tutorial completo sobre GRPO nas respostas.
Top
Classificação
Favoritos