Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Techniki dostosowywania LLM, których bym się nauczył, gdybym miał je dostosować:
Zapisz to.
1. LoRA
2. QLoRA
3. Tuning Prefiksów
4. Tuning Adapterów
5. Tuning Instrukcji
6. P-Tuning
7. BitFit
8. Miękkie Podpowiedzi
9. RLHF
10. RLAIF
11. DPO (Optymalizacja Preferencji Bezpośrednich)
12. GRPO (Optymalizacja Polityki Relatywnej Grupy)
13. RLAIF (RL z Informacją Zwrotną od AI)
14. Multi-Task Fine-Tuning
15. Federated Fine-Tuning
Moim ulubionym jest GRPO do budowania modeli rozumowania. A Ty?
Podzieliłem się moim pełnym samouczkiem na temat GRPO w odpowiedziach.
Najlepsze
Ranking
Ulubione