加速科学进步是人工智能对社会最有影响力的益处之一。模型已经可以帮助研究人员解决困难的问题——但要做到这一点,就需要在更严格的评估和基于实验的真实科学工作流程中测试模型。
GPT-5.2 是我们在 FrontierScience 评估中最强大的模型,在困难的科学任务上显示出明显的进步。 但基准测试也揭示了在结构化问题上的强大表现与真实研究所需的开放式、迭代推理之间的差距。
在科学领域,AI最有意义的基准是它所能实现的新发现。 FrontierScience在这一目标的上游,提供了一个北极星,通过在具有挑战性的标准化问题上测试模型,展示它们的成功与不足,从而为专家级科学推理提供指导。 虽然必然较为狭窄,但FrontierScience是朝着该领域所需的更艰难、更有意义的基准迈出的一步。
克隆是分子生物学的基本工具,效率的提升在整个生物技术领域都有应用。 这展示了AI如何与生物学家并肩工作,以加速研究。改善实验方法将帮助人类研究人员更快地推进,降低成本,并将发现转化为现实世界的影响。
将更严格的基准测试,如FrontierScience,与现实世界的实验室评估相结合,使我们能够更清晰地了解当前模型的有效性以及进一步发展的需求。 我们看到早期的强大潜力,同时也有明确的局限性,我们将继续与科学家们进行迭代,使这些模型成为更有能力、更可靠的发现伙伴。
90