💥 Annuncio di GDPval, una nuova valutazione che misura le prestazioni del modello su compiti reali di valore economico in 44 professioni.
Le valutazioni sono come test per un modello: a scuola hai test di matematica, test di ortografia, test di storia. Facciamo molto per testare i nostri modelli sulla potenza di ragionamento grezza.
L'obiettivo di GDPval è testare compiti che i professionisti svolgono quotidianamente, tenendo conto del contesto e creando output come documenti, diapositive, diagrammi e fogli di calcolo, in settori come immobiliare, governo, lavoro sociale, ingegneria meccanica, contabilità, assistenza infermieristica, servizio clienti, consulenza finanziaria e altro.
I migliori modelli (GPT-5, Claude, Gemini) non stanno ancora superando gli esperti del settore, ma si stanno avvicinando molto—e sono più veloci e più economici.
E congratulazioni a @tejalpatwardhan e al team per il lavoro incredibile su GDPval!
23,16K