DApp Store | Hub da Web3 para eventos e jogos | OKX Wallet

O que posso fazer em Descobrir?

background background

discoveryBanners

Tópicos em alta

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+11,56%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Nouha Dziri

Nouha Dziri

Nouha Dziri3 de out., 01:09

Interessante ver a Bytedance trabalhando para resolver o problema do gradiente 0. A ideia deles é abordá-lo por meio de um orçamento de computação adaptável; nós o abordamos de uma perspectiva de recompensa. O treinamento GRPO normalmente usa conjuntos de dados pequenos e cuidadosamente selecionados, os dados precisam ser muito difíceis para fornecer sinais de aprendizado avançados e permitir a descoberta. O treinamento em dados mais fáceis apenas aprimorará o que o modelo já viu no SFT/pré-treinamento!

Ziniu Li

Ziniu Li2 de out., 13:51

🚀 Animado para compartilhar nosso trabalho na Bytedance Seed! Knapsack RL: Desbloqueando a exploração de LLMs por meio de alocação 🎒 de orçamento A exploração no treinamento LLM é crucial, mas cara. A alocação de distribuição uniforme é um desperdício: ✅ Tarefas fáceis → sempre resolvidas → 0 gradiente ❌ Tarefas difíceis → sempre falham → 0 gradiente 💡 Nossa ideia: tratar a exploração como um problema costal → alocar lançamentos onde eles são mais importantes. ✨ Resultados: 🔼 +20–40% mais gradientes diferentes de zero 🧮 Até 93 implementações para tarefas difíceis (sem computação extra) 📈 +2–4 pontos médios, +9 ganhos máximos em benchmarks matemáticos 💰 ~ 2× mais barato do que a alocação uniforme 📄 Papel:

53,62K

Nouha Dziri

Nouha Dziri2 de out., 02:38

🚀Já se perguntou como fazer o RL funcionar em tarefas difíceis impossíveis onde pass@k = 0%? 🤔 Em nosso novo trabalho, compartilhamos a Receita RL Grokking: uma receita de treinamento que permite que os LLMs resolvam problemas de codificação anteriormente insolúveis! Estarei na #CoLM2025 na próxima semana, então ficarei feliz em conversar sobre isso! Também mergulhamos no debate acalorado: o RL apenas aprimora as habilidades aprendidas anteriormente ou pode desbloquear um raciocínio genuinamente novo? 🔥🔥 Leia o blog completo aqui: #AI #RL #NLP #reinforcementlearning #llm

81,04K

Melhores

Classificação

Favoritos

©2017 - 2025 WEB3.OKX.COM

Português (Brasil)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Mais sobre a OKX Web3

Baixar Tutoriais Nossa equipe Carreiras Fale conosco Termos de serviço Aviso de Privacidade X (antigo Twitter)

Produto

Painel da carteira Swap Marketplace Earn Descubra Crie Explorador Segurança

Atendimento

Centro de ajuda Verificação oficial Avisos Tabela de tarifas DEX Conecte-se com a OKX Carteira Bitcoin Carteira Ethereum Carteira Solana