Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Техники дообучения LLM, которые я бы изучил, если бы хотел их настроить:
Сохраните это.
1. LoRA
2. QLoRA
3. Настройка префикса
4. Настройка адаптера
5. Настройка инструкций
6. P-Tuning
7. BitFit
8. Мягкие подсказки
9. RLHF
10. RLAIF
11. DPO (Оптимизация прямых предпочтений)
12. GRPO (Оптимизация относительной политики группы)
13. RLAIF (RL с обратной связью от ИИ)
14. Многоцелевое дообучение
15. Федеративное дообучение
Мой любимый метод - GRPO для построения моделей рассуждений. А как насчет вас?
Я поделился своим полным руководством по GRPO в ответах.
Топ
Рейтинг
Избранное