💥 Ankündigung von GDPval, einer neuen Bewertung, die die Modellleistung bei wirtschaftlich wertvollen, realen Aufgaben in 44 Berufen misst.
Evals sind wie Tests für ein Modell – in der Schule gibt es Mathe-Tests, Rechtschreib-Tests, Geschichts-Tests. Wir tun bereits viel, um unsere Modelle auf roher Denkfähigkeit zu testen.
Das Ziel von GDPval ist es, Aufgaben zu testen, die Fachleute täglich erledigen – unter Berücksichtigung des Kontexts und der Erstellung von Ausgaben wie Dokumenten, Folien, Diagrammen und Tabellenkalkulationen in Berufen wie Immobilien, Regierung, Sozialarbeit, Maschinenbau, Buchhaltung, Pflege, Kundenservice, Finanzberatung und mehr.
Die besten Modelle (GPT-5, Claude, Gemini) schlagen die Branchenexperten noch nicht, aber sie kommen ihnen ziemlich nahe – und sie sind schneller und günstiger.
Und Glückwünsche an @tejalpatwardhan und das Team für die unglaubliche Arbeit an GDPval!
23,57K