Техники дообучения LLM, которые я бы изучил, если бы хотел их настроить: Сохраните это. 1. LoRA 2. QLoRA 3. Настройка префикса 4. Настройка адаптера 5. Настройка инструкций 6. P-Tuning 7. BitFit 8. Мягкие подсказки 9. RLHF 10. RLAIF 11. DPO (Оптимизация прямых предпочтений) 12. GRPO (Оптимизация относительной политики группы) 13. RLAIF (RL с обратной связью от ИИ) 14. Многоцелевое дообучение 15. Федеративное дообучение Мой любимый метод - GRPO для построения моделей рассуждений. А как насчет вас? Я поделился своим полным руководством по GRPO в ответах.