LLM-hienosäätötekniikat, jotka oppisin, jos muokkaan niitä: Lisää tämä kirjanmerkkeihin. 1. LoRA 2. QLoRA 3. Etuliitteen viritys 4. Sovittimen viritys 5. Ohjeiden viritys 6. P-viritys 7. BitFit 8. Pehmeät kehotteet 9. RLHF 10. RLAIF 11. DPO (suoran mieltymyksen optimointi) 12. GRPO (ryhmän suhteellinen politiikan optimointi) 13. RLAIF (RL tekoälypalautteella) 14. Monitoiminen hienosäätö 15. Federoitu hienosäätö Suosikkini on GRPO päättelymallien rakentamiseen. Entä sinä? Olen jakanut vastauksissa koko opetusohjelmani GRPO:sta.