💥 Anunciando GDPval, una nueva evaluación que mide el rendimiento del modelo en tareas del mundo real económicamente valiosas, en 44 ocupaciones.
Las evaluaciones son como pruebas para un modelo; en la escuela tienes pruebas de matemáticas, pruebas de ortografía, pruebas de historia. Ya hacemos mucho para probar nuestros modelos en la potencia de razonamiento en bruto.
El objetivo de GDPval es probar tareas que los profesionales realizan a diario: teniendo en cuenta el contexto y creando salidas como documentos, presentaciones, diagramas y hojas de cálculo, en ocupaciones como bienes raíces, gobierno, trabajo social, ingeniería mecánica, contabilidad, enfermería, servicio al cliente, asesoría financiera y más.
Los mejores modelos (GPT-5, Claude, Gemini) aún no superan a los expertos de la industria, pero están bastante cerca—y son más rápidos y económicos.
¡Y felicidades a @tejalpatwardhan y al equipo por el increíble trabajo en GDPval!
23,16K