Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 Anunciando o GDPval, uma nova avaliação que mede o desempenho do modelo em tarefas do mundo real economicamente valiosas, em 44 ocupações.
As avaliações são como testes para um modelo—na escola você tem testes de matemática, testes de ortografia, testes de história. Já fazemos muito para testar nossos modelos em termos de capacidade de raciocínio bruto.
O objetivo do GDPval é testar tarefas que os profissionais realizam diariamente—considerando o contexto e criando saídas como documentos, apresentações, diagramas e folhas de cálculo, em ocupações como imobiliário, governo, trabalho social, engenharia mecânica, contabilidade, enfermagem, atendimento ao cliente, consultoria financeira e mais.
Os melhores modelos (GPT-5, Claude, Gemini) ainda não estão a superar os especialistas da indústria, mas estão bastante próximos—e são mais rápidos e baratos.
E parabéns a @tejalpatwardhan e à equipa pelo trabalho incrível no GDPval!
23,99K
Top
Classificação
Favoritos