Магазин DApp | Web3-центр мероприятий и игр | Кошелек OKX

Все возможности Discover

background background

discoveryBanners

Актуальные темы

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-9,09 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Nouha Dziri

Nouha Dziri

Nouha Dziri3 окт., 01:09

Интересно видеть, как Bytedance работает над решением проблемы 0-градуса. Их идея заключается в том, чтобы решить её с помощью адаптивного бюджета вычислений; мы подходим к этому с точки зрения вознаграждения. Обучение GRPO обычно использует небольшие, тщательно подобранные наборы данных, данные должны быть действительно сложными, чтобы предоставить богатые сигналы для обучения и позволить открытию. Обучение на более простых данных просто уточнит то, что модель уже видела в SFT/предварительном обучении!

Ziniu Li

Ziniu Li2 окт., 13:51

🚀 Рад поделиться нашей работой в Bytedance Seed! Knapsack RL: Разблокировка исследования LLM через распределение бюджета 🎒 Исследование в обучении LLM имеет решающее значение, но дорого. Равномерное распределение роллов неэффективно: ✅ Легкие задачи → всегда решены → 0 градиент ❌ Сложные задачи → всегда провалены → 0 градиент 💡 Наша идея: рассматривать исследование как задачу о рюкзаке → распределять роллы там, где это имеет наибольшее значение. ✨ Результаты: 🔼 +20–40% больше ненулевых градиентов 🧮 До 93 роллов для сложных задач (без дополнительных вычислений) 📈 +2–4 средних балла, +9 пиковых приростов на математических тестах 💰 ~2× дешевле, чем равномерное распределение 📄 Статья:

53,63K

Nouha Dziri

Nouha Dziri2 окт., 02:38

🚀Вы когда-нибудь задумывались, как заставить RL работать над невозможными сложными задачами, где pass@k = 0%? 🤔 В нашей новой работе мы делимся Рецептом Гроккинга RL: рецептом обучения, который позволяет LLM решать ранее неразрешимые задачи программирования! Я буду на #CoLM2025 на следующей неделе, так что буду рад обсудить это! Мы также углубляемся в горячую дискуссию: улучшает ли RL просто ранее усвоенные навыки или может ли он открыть действительно новое мышление? 🔥🔥 Читать полный блог здесь: #AI #RL #NLP #reinforcementlearning #llm

81,05K

Топ

Рейтинг

Избранное

©2017 - 2025 WEB3.OKX.COM

Русский 简体中文繁體中文 English Tiếng Việt Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Подробнее об OKX Web3

Скачать Академия О нас Вакансии Связаться с нами Условия оказания услуг Уведомление о конфиденциальности X (бывший Twitter)

Продукт

Панель кошелька Обмен Маркетплейс DeFi Discover Разработка Обозреватель Безопасность

Поддержка

Центр поддержки Защита от фишинга Объявления График комиссий DEX Сообщество ОКХ Кошелек Bitcoin Кошелек Ethereum Кошелек Solana