Acelerar o progresso científico é uma das formas mais impactantes como a AI pode beneficiar a sociedade. Os modelos já podem ajudar os pesquisadores a raciocinar sobre problemas difíceis — mas fazer isso bem significa testar modelos em avaliações mais rigorosas e em fluxos de trabalho científicos reais fundamentados em experimentos.
O GPT-5.2 é o nosso modelo mais forte na avaliação FrontierScience, mostrando ganhos claros em tarefas científicas difíceis. Mas o benchmark também revela uma lacuna entre o desempenho forte em problemas estruturados e o raciocínio aberto e iterativo que a pesquisa real requer.
O benchmark mais significativo para a IA na ciência são as novas descobertas que ela possibilita. A FrontierScience está a montante desse objetivo, fornecendo uma estrela guia para o raciocínio científico em nível de especialista, testando modelos em problemas desafiadores e padronizados e mostrando onde eles têm sucesso ou falham. Embora necessariamente estreita, a FrontierScience é um passo em direção aos benchmarks mais difíceis e significativos que o campo necessita.
A clonagem é uma ferramenta fundamental da biologia molecular, e as melhorias de eficiência têm aplicações em toda a biotecnologia. Isto oferece um vislumbre de como a IA poderia trabalhar lado a lado com biólogos para acelerar a pesquisa. Melhorar os métodos experimentais ajudará os pesquisadores humanos a avançar mais rapidamente, reduzir custos e traduzir descobertas em impacto no mundo real.
Combinar benchmarks mais rigorosos como FrontierScience com avaliações laboratoriais do mundo real dá-nos um mapa mais claro de onde os modelos são eficazes hoje e onde é necessário um desenvolvimento adicional. Vemos uma forte promessa inicial, juntamente com limitações bem definidas, e continuaremos a iterar com os cientistas para tornar estes modelos parceiros mais capazes e fiáveis na descoberta.
78