Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 Anunciando GDPval, una nueva evaluación que mide el rendimiento del modelo en tareas del mundo real económicamente valiosas, en 44 ocupaciones.
Las evaluaciones son como pruebas para un modelo; en la escuela tienes pruebas de matemáticas, pruebas de ortografía, pruebas de historia. Ya hacemos mucho para probar nuestros modelos en la potencia de razonamiento en bruto.
El objetivo de GDPval es probar tareas que los profesionales realizan a diario: teniendo en cuenta el contexto y creando salidas como documentos, presentaciones, diagramas y hojas de cálculo, en ocupaciones como bienes raíces, gobierno, trabajo social, ingeniería mecánica, contabilidad, enfermería, servicio al cliente, asesoría financiera y más.
Los mejores modelos (GPT-5, Claude, Gemini) aún no superan a los expertos de la industria, pero están bastante cerca—y son más rápidos y económicos.
¡Y felicidades a @tejalpatwardhan y al equipo por el increíble trabajo en GDPval!
23,16K
Parte superior
Clasificación
Favoritos