💥 Объявляем о GDPval, новом инструменте оценки, который измеряет производительность модели по экономически ценным, реальным задачам в 44 профессиях.
Оценки похожи на тесты для модели — в школе у вас есть тесты по математике, тесты по правописанию, тесты по истории. Мы уже делаем много для тестирования наших моделей на сырой вычислительной мощности.
Цель GDPval заключается в тестировании задач, которые профессионалы выполняют ежедневно — учитывая контекст и создавая такие выходные данные, как документы, слайды, диаграммы и таблицы, в таких профессиях, как недвижимость, государственное управление, социальная работа, машиностроение, бухгалтерия, сестринское дело, обслуживание клиентов, финансовое консультирование и многое другое.
Лучшие модели (GPT-5, Claude, Gemini) еще не обгоняют экспертов отрасли, но они приближаются к этому — и они быстрее и дешевле.
И поздравления @tejalpatwardhan и команде за невероятную работу над GDPval!
24K