トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM の微調整テクニックをカスタマイズした場合に学ぶことができます。
これをブックマークしてください。
1. ロラ
2. QLoRA
3. プレフィックスチューニング
4. アダプターのチューニング
5. 命令のチューニング
6. Pチューニング
7. ビットフィット
8. ソフトプロンプト
9. RLHF
10. RLAIF
11. DPO(直接選好最適化)
12. GRPO(グループ相対ポリシー最適化)
13. RLAIF(AIフィードバック付きRL)
14. マルチタスクの微調整
15. フェデレーテッド・ファインチューニング
私のお気に入りは、推論モデルを構築するためのGRPOです。あなたはどうなんですか。
GRPOに関する完全なチュートリアルを返信で共有しました。
トップ
ランキング
お気に入り