Accélérer le progrès scientifique est l'un des moyens les plus impactants par lesquels l'IA peut bénéficier à la société. Les modèles peuvent déjà aider les chercheurs à réfléchir à des problèmes difficiles — mais bien faire cela signifie tester les modèles sur des évaluations plus difficiles et dans de véritables flux de travail scientifiques ancrés dans des expériences.
GPT-5.2 est notre modèle le plus performant sur l'évaluation FrontierScience, montrant des gains clairs sur des tâches scientifiques difficiles. Mais le benchmark révèle également un écart entre une performance solide sur des problèmes structurés et le raisonnement ouvert et itératif que nécessite la recherche réelle.
Le critère le plus significatif pour l'IA dans la science est les nouvelles découvertes qu'elle permet. FrontierScience se situe en amont de cet objectif, fournissant une étoile polaire pour le raisonnement scientifique de niveau expert en testant des modèles sur des problèmes standardisés et difficiles, et en montrant où ils réussissent ou échouent. Bien que nécessairement étroit, FrontierScience est un pas vers des critères plus difficiles et plus significatifs dont le domaine a besoin.
Le clonage est un outil fondamental de la biologie moléculaire, et les améliorations d'efficacité ont des applications dans toute la biotechnologie. Cela offre un aperçu de la manière dont l'IA pourrait travailler aux côtés des biologistes pour accélérer la recherche. L'amélioration des méthodes expérimentales aidera les chercheurs humains à avancer plus rapidement, à réduire les coûts et à traduire les découvertes en impact réel.
Combiner des références plus strictes comme FrontierScience avec des évaluations en laboratoire dans le monde réel nous donne une carte plus claire de l'efficacité des modèles aujourd'hui et des domaines où un développement supplémentaire est nécessaire. Nous constatons un fort potentiel précoce, accompagné de limitations bien définies, et nous continuerons à itérer avec les scientifiques pour rendre ces modèles des partenaires plus capables et fiables dans la découverte.
83