DApp Store | Piattaforma Web3 per eventi e giochi | OKX Wallet

Cosa posso fare con Discover

background background

discoveryBanners

Argomenti di tendenza

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+1,53%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Nouha Dziri

Nouha Dziri

Nouha Dziri3 ott, 01:09

È interessante vedere Bytedance lavorare per risolvere il problema del gradiente zero. La loro idea è affrontarlo attraverso un budget computazionale adattivo; noi lo affrontiamo da una prospettiva di ricompensa. L'addestramento GRPO di solito utilizza piccoli dataset accuratamente curati, i dati devono essere davvero difficili per fornire segnali di apprendimento ricchi e abilitare la scoperta. Addestrare su dati più facili affinerà solo ciò che il modello ha già visto in SFT/pre-addestramento!

Ziniu Li

Ziniu Li2 ott, 13:51

🚀 Siamo entusiasti di condividere il nostro lavoro presso Bytedance Seed! Knapsack RL: Sbloccare l'esplorazione degli LLM tramite allocazione del budget 🎒 L'esplorazione nell'addestramento degli LLM è cruciale ma costosa. L'allocazione uniforme dei rollout è inefficiente: ✅ Compiti facili → sempre risolti → 0 gradiente ❌ Compiti difficili → sempre falliti → 0 gradiente 💡 La nostra idea: trattare l'esplorazione come un problema dello zaino → allocare i rollout dove contano di più. ✨ Risultati: 🔼 +20–40% di gradienti non nulli in più 🧮 Fino a 93 rollout per compiti difficili (senza calcolo extra) 📈 +2–4 punti medi, +9 guadagni di picco nei benchmark matematici 💰 ~2× più economico rispetto all'allocazione uniforme 📄 Articolo:

42,12K

Nouha Dziri

Nouha Dziri2 ott, 02:38

🚀Ti sei mai chiesto come far funzionare il RL su compiti impossibili dove pass@k = 0%? 🤔 Nel nostro nuovo lavoro, condividiamo la Ricetta Grokking per il RL: una ricetta di addestramento che consente agli LLM di risolvere problemi di codifica precedentemente irrisolvibili! Sarò al #CoLM2025 la prossima settimana, quindi felice di parlarne! Ci immergiamo anche nel dibattito acceso: il RL affina solo le abilità apprese in precedenza o può sbloccare un ragionamento genuinamente nuovo? 🔥🔥 Leggi il blog completo qui: #AI #RL #NLP #reinforcementlearning #llm

66,19K

Principali

Ranking

Preferiti

©2017 - 2025 WEB3.OKX.COM

Italiano 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Ulteriori informazioni su OKX Web 3

Scarica Academy Chi siamo Lavora con noi Contattaci Termini di servizio Informativa X (ex Twitter)

Prodotto

Dashboard del portafoglio Swap OKX NFT Guadagna Scopri Costruisci Explorer Sicurezza

Assistenza

Centro assistenza Verifica ufficiale Comunicazioni Schema commissioni DEX Connettiti con OKX Portafoglio bitcoin Portafoglio Ethereum Portafoglio Solana