🚨 突发新闻:Grok 在 AI 基准测试中继续占据主导地位,超越了 OpenAI 的 ChatGPT、谷歌的 Gemini 以及其他在推理、编码和代理任务方面的表现。 GPQA(科学推理)第一名 SciCode(编码)第一名 Terminal-Bench(代理编码与终端使用)第一名