LLM の微調整テクニックをカスタマイズした場合に学ぶことができます。 これをブックマークしてください。 1. ロラ 2. QLoRA 3. プレフィックスチューニング 4. アダプターのチューニング 5. 命令のチューニング 6. Pチューニング 7. ビットフィット 8. ソフトプロンプト 9. RLHF 10. RLAIF 11. DPO(直接選好最適化) 12. GRPO(グループ相対ポリシー最適化) 13. RLAIF(AIフィードバック付きRL) 14. マルチタスクの微調整 15. フェデレーテッド・ファインチューニング 私のお気に入りは、推論モデルを構築するためのGRPOです。あなたはどうなんですか。 GRPOに関する完全なチュートリアルを返信で共有しました。