DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

1/N Me complace compartir que nuestro último @OpenAI LLM de razonamiento experimental ha logrado un gran desafío de larga data en IA: el rendimiento a nivel de medalla de oro en la competencia de matemáticas más prestigiosa del mundo: la Olimpiada Internacional de Matemáticas (IMO).

2/N Evaluamos nuestros modelos en los problemas de la IMO 2025 bajo las mismas reglas que los concursantes humanos: dos sesiones de examen de 4.5 horas, sin herramientas ni internet, leyendo las declaraciones oficiales de los problemas y escribiendo pruebas en lenguaje natural.

4/N En segundo lugar, las presentaciones de IMO son pruebas difíciles de verificar y de múltiples páginas. El progreso aquí requiere ir más allá del paradigma de RL de recompensas claras y verificables. Al hacerlo, hemos obtenido un modelo que puede elaborar argumentos intrincados e irrefutables al nivel de los matemáticos humanos.

5/N Además del resultado en sí, estoy emocionado por nuestro enfoque: alcanzamos este nivel de capacidad no a través de una metodología específica y estrecha, sino rompiendo nuevos caminos en el aprendizaje por refuerzo de propósito general y la escalabilidad del cómputo en el momento de la prueba.

6/N En nuestra evaluación, el modelo resolvió 5 de los 6 problemas en la IMO 2025. Para cada problema, tres exmedallistas de la IMO calificaron de forma independiente la prueba presentada por el modelo, con puntuaciones finalizadas tras un consenso unánime. ¡El modelo obtuvo 35/42 puntos en total, suficiente para el oro! 🥇

8/N Por cierto, estamos lanzando GPT-5 pronto, y estamos emocionados de que lo pruebes. Pero para ser claros: el modelo LLM de IMO gold es un modelo de investigación experimental. No planeamos lanzar nada con este nivel de capacidad matemática durante varios meses.

9/N Aún así, esto subraya lo rápido que ha avanzado la IA en los últimos años. En 2021, mi asesor de doctorado me @JacobSteinhardt hecho pronosticar el progreso matemático de IA para julio de 2025. Predije un 30% en el punto de referencia MATH (y pensé que todos los demás eran demasiado optimistas). En cambio, tenemos oro en mi opinión.

11/N Por último, nos gustaría felicitar a todos los participantes de la OMI 2025 por su logro. Estamos orgullosos de tener muchos participantes anteriores de la OMI en @OpenAI y reconocemos que estas son algunas de las mentes jóvenes más brillantes del futuro.

1,4M

Parte superior

Clasificación

Favoritos