💥 Anunciando o GDPval, uma nova avaliação que mede o desempenho do modelo em tarefas economicamente valiosas do mundo real em 44 ocupações.
As avaliações são como testes para um modelo - na escola você tem testes de matemática, testes de ortografia, testes de história. Já fazemos muito para testar nossos modelos em potência bruta de raciocínio.
O objetivo do GDPval é testar tarefas que os profissionais realizam diariamente, levando em consideração o contexto e criando resultados como documentos, slides, diagramas e planilhas, em ocupações como imóveis, governo, serviço social, engenharia mecânica, contabilidade, enfermagem, atendimento ao cliente, consultoria financeira e muito mais.
Os melhores modelos (GPT-5, Claude, Gemini) ainda não estão superando os especialistas do setor, mas estão chegando bem perto - e são mais rápidos e baratos.
E parabéns a @tejalpatwardhan e equipe pelo trabalho incrível no GDPval!
23,57K