DApp Store | Web3 Hub tapahtumille ja peleille

Mitä voin tehdä Discoverilla

Trendaavat aiheet

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP−0,45 %

Boopa−21,57 %

PORK+0,21 %

Nouha Dziri

Nouha Dziri7.10. klo 21.47

Bonjour Montreal🇨🇦🍁🍁 on innoissaan päästessään taas tänne. On #COLM2025 perjantaihin asti, joten ota yhteyttä, jos haluat keskustella!

3,87K

Nouha Dziri3.10. klo 01.09

Mielenkiintoista nähdä Bytedancen työskentelevän 0-gradienttiongelman ratkaisemiseksi. Heidän ideansa on ratkaista se mukautuvan laskentabudjetin avulla; Lähestymme sitä palkitsemisen näkökulmasta. GRPO-koulutuksessa käytetään tyypillisesti pieniä, huolellisesti kuratoituja tietojoukkoja, ja tietojen on oltava todella vaikeita, jotta ne voivat tarjota rikkaita oppimissignaaleja ja mahdollistaa löytämisen. Helpomman datan harjoittelu vain terävöittää sitä, mitä malli on jo nähnyt SFT:ssä/esikoulutuksessa!

Ziniu Li2.10. klo 13.51

🚀 Innoissamme voidessamme jakaa työmme Bytedance Seedissä! Knapsack RL: LLM:n tutkimisen avaaminen budjettimäärärahojen avulla 🎒 LLM-koulutuksen tutkiminen on ratkaisevan tärkeää, mutta kallista. Yhtenäinen käyttöönotto on tuhlausta: ✅ Helpot tehtävät → aina ratkaistu → 0 kaltevuus ❌ Vaikeat tehtävät → aina epäonnistuvat → 0 kaltevuus 💡 Ajatuksemme: käsitellä etsintää reppuongelmana → kohdentaa käyttöönotot sinne, missä niillä on eniten merkitystä. ✨ Tulokset: 🔼 +20–40 % enemmän nollasta poikkeavia kaltevuuksia 🧮 Jopa 93 käyttöönottoa vaikeisiin tehtäviin (ilman ylimääräistä laskentaa) 📈 +2–4 keskiarvopistettä, +9 huippuvoittoa matematiikan vertailuarvoissa 💰 ~2× halvempaa kuin yhtenäinen jako 📄 Paperi:

53,63K

Nouha Dziri2.10. klo 02.38

🚀Oletko koskaan miettinyt, miten saada RL työskentelemään mahdottomien vaikeiden tehtävien parissa, joissa pass@k = 0 %? 🤔 Uudessa työssämme jaamme RL Grokking -reseptin: koulutusreseptin, jonka avulla LLM:t voivat ratkaista aiemmin ratkaisemattomia koodausongelmia! Olen #CoLM2025 ensi viikolla, joten juttelen siitä mielelläni! Sukellamme myös kiivaaseen keskusteluun: terävöittääkö RL vain aiemmin opittuja taitoja vai voiko se avata aidosti uutta päättelyä? 🔥🔥 Lue koko blogi täältä: #AI #RL #NLP #reinforcementlearning #llm

81,05K

Johtavat

Rankkaus

Suosikit

Suomi 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Svenska

More about OKX Wallet

Lataa Opi Tietoa meistä Työpaikat Ota meihin yhteyttä Käyttöehdot Tietosuojaselosteen X (ennen Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Explorer Suojaus

Tuki

Tukikeskus Kanavan todennus Ilmoitukset DEX-hinnasto Yhdistä OKX:ään Bitcoin-lompakko Ethereum-lompakko Solana-lompakko