💥 Оголошуємо GDPval, новий евал, який вимірює продуктивність моделі для виконання економічно цінних, реальних завдань у 44 професіях.
Evals схожі на тести для моделі — у школі у вас є тести з математики, з правопису, з історії. Ми вже багато робимо, щоб протестувати наші моделі на сирих міркуваннях.
Мета GDPval полягає в тому, щоб перевірити завдання, які професіонали виконують щодня — беручи контекст і створюючи результати, такі як документи, слайди, діаграми та електронні таблиці, у таких професіях, як нерухомість, уряд, соціальна робота, машинобудування, бухгалтерський облік, обслуговування клієнтів, фінансове консультування тощо.
Найкращі моделі (GPT-5, Claude, Gemini) поки що не перевершують експертів галузі, але вони досить близькі — і вони швидші та дешевші.
І вітаємо @tejalpatwardhan та команду з неймовірною роботою на GDPval!
24K