Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tecniche di fine-tuning LLM che imparerei se dovessi personalizzarle:
Salva questo.
1. LoRA
2. QLoRA
3. Prefix Tuning
4. Adapter Tuning
5. Instruction Tuning
6. P-Tuning
7. BitFit
8. Soft Prompts
9. RLHF
10. RLAIF
11. DPO (Ottimizzazione Diretta delle Preferenze)
12. GRPO (Ottimizzazione della Politica Relativa di Gruppo)
13. RLAIF (RL con Feedback AI)
14. Fine-Tuning Multi-Task
15. Fine-Tuning Federato
Il mio preferito è GRPO per costruire modelli di ragionamento. E tu?
Ho condiviso il mio tutorial completo su GRPO nelle risposte.
Principali
Ranking
Preferiti