Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM techniky dolaďování bych se naučil, kdybych si je měl přizpůsobit:
Uložte si to do záložek.
1. LoRA
2. QLoRA
3. Ladění předpon
4. Ladění adaptéru
5. Ladění instrukcí
6. P-Tuning
7. Nástroj BitFit
8. Měkké výzvy
9. RLHF
10. RLAIF
11. DPO (přímá optimalizace preferencí)
12. GRPO (Optimalizace relativních politik skupiny)
13. RLAIF (RL se zpětnou vazbou AI)
14. Jemné doladění více úloh
15. Federované jemné doladění
Můj oblíbený je GRPO pro vytváření modelů uvažování. A co ty?
V odpovědích jsem sdílel celý svůj návod na GRPO.
Top
Hodnocení
Oblíbené