Методи тонкого налаштування LLM, які я б вивчив, якби їх налаштував: Збережіть це в закладки. 1. Технологія LoRA 2. QLoRA 3. Тюнінг префікса 4. Тюнінг адаптера 5. Інструкція по тюнінгу 6. П-тюнінг 7. Технологія BitFit 8. М'які підказки 9. РЛХФ 10. РЛАЙФ 11. DPO (пряма оптимізація налаштувань) 12. GRPO (Оптимізація відносної політики групи) 13. RLAIF (RL зі зворотним зв'язком AI) 14. Тонке налаштування в кількох завданнях 15. Федеративна тонка настройка Мій фаворит – GRPO для побудови моделей міркувань. А ти? Я поділився своїм повним навчальним посібником з GRPO у відповідях.