Магазин DApp | Центр Web3 для подій та ігор | OKX Гаманець

Що можна робити за допомогою Discover

background background

discoveryBanners

Актуальні теми

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-5,25%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Nouha Dziri

Nouha Dziri

Nouha Dziri3 жовт., 01:09

Цікаво спостерігати, як Bytedance працює над вирішенням проблеми 0-градієнта. Їхня ідея полягає в тому, щоб вирішити цю проблему за допомогою адаптивного бюджету обчислень; Ми підходимо до цього з точки зору винагороди. Навчання GRPO зазвичай використовує невеликі, ретельно підібрані набори даних, дані повинні бути дійсно жорсткими, щоб надати багаті навчальні сигнали та забезпечити можливість виявлення. Тренування на простіших даних лише загострить те, що модель вже бачила в SFT/pre-training!

Ziniu Li

Ziniu Li2 жовт., 13:51

🚀 Раді поділитися своєю роботою в Bytedance Seed! Knapsack RL: розблокування дослідження LLM шляхом розподілу 🎒 бюджету Дослідження в навчанні LLM є важливим, але дорогим. Рівномірний розподіл розгортання є марнотратним: ✅ Легкі завдання → завжди вирішуються → градієнті 0 ❌ Складні завдання → завжди зазнають невдачі → 0 градієнт 💡 Наша ідея: ставитися до розвідки як до проблеми рюкзака → розподіляти розгортання там, де вони найважливіші. ✨ Результатів: 🔼 На +20–40% більше ненульових градієнтів 🧮 До 93 розгортань для складних завдань (без додаткових обчислень) 📈 +2–4 середні бали, +9 пікових приростів на математичних бенчмарках 💰 ~2× дешевше, ніж рівномірний розподіл 📄 Папір:

52,97K

Nouha Dziri

Nouha Dziri2 жовт., 02:38

🚀Ви коли-небудь замислювалися, як змусити RL працювати над неможливими важкими завданнями, де pass@k = 0%? 🤔 У нашій новій роботі ми ділимося рецептом RL Grokking: тренувальним рецептом, який дозволяє LLM вирішувати раніше нерозв'язні проблеми кодування! Наступного тижня я буду в #CoLM2025, тому радий поговорити про це! Ми також занурюємося в гарячу дискусію: чи РЛ просто відточує раніше вивчені навички, чи може розблокувати справді нові міркування? 🔥🔥 Повний текст блогу читайте тут: #AI #RL #NLP #reinforcementlearning #llm

74,84K

Найкращі

Рейтинг

Вибране

©2017 - 2025 WEB3.OKX.COM

Українська 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Більше про OKX Web3

Завантажити Академія Про нас Вакансії Зв’яжіться з нами Умови обслуговування Повідомлення про конфіденційність X (колишня назва — Twitter)

Продукт

Інформаційна панель гаманця Своп Ринок Earn Дізнатися більше Створити Оглядач Безпека

Підтримка

Центр підтримки Захист від фішингу Оголошення Графік комісій у DEX Підключитися з OKX Гаманець Bitcoin Гаманець Ethereum Гаманець Solana