Att accelerera vetenskapliga framsteg är ett av de mest effektfulla sätten AI kan gynna samhället. Modeller kan redan hjälpa forskare att resonera igenom svåra problem – men att göra detta väl innebär att testa modeller på tuffare utvärderingar och i verkliga vetenskapliga arbetsflöden baserade på experiment.
GPT-5.2 är vår starkaste modell i FrontierScience-utvärderingen och visar tydliga framsteg på svåra vetenskapliga uppgifter. Men benchmarken visar också en klyfta mellan stark prestation på strukturerade problem och det öppna, iterativa resonemang som verklig forskning kräver.
Den mest meningsfulla riktmärket för AI inom vetenskapen är de nya upptäckter det möjliggör. FrontierScience ligger uppströms från det målet och erbjuder en ledstjärna för expertnivåvetenskapligt resonemang genom att testa modeller på utmanande, standardiserade problem och visa var de lyckas eller brister. Även om det nödvändigtvis är snävt är FrontierScience ett steg mot de hårdare och mer meningsfulla riktmärken som området behöver.
Kloning är ett grundläggande verktyg inom molekylärbiologi, och effektiviseringar har tillämpningar inom hela biotekniken. Detta ger en inblick i hur AI kan arbeta sida vid sida med biologer för att påskynda forskningen. Att förbättra experimentella metoder kommer att hjälpa mänskliga forskare att arbeta snabbare, minska kostnader och omsätta upptäckter i verklig effekt.
Att kombinera hårdare benchmarks som FrontierScience med verkliga laboratorieutvärderingar ger oss en tydligare karta över var modeller är effektiva idag och var ytterligare utveckling behövs. Vi ser starka tidiga löften, tillsammans med väldefinierade begränsningar, och vi kommer att fortsätta iterera med forskare för att göra dessa modeller mer kapabla och pålitliga partners inom upptäckter.
76