🚨 突發消息:Grok 繼續在 AI 基準測試中佔據主導地位,超越 OpenAI 的 ChatGPT、Google 的 Gemini 及其他在推理、編碼和代理任務方面的表現。 GPQA(科學推理)#1 SciCode(編碼)#1 Terminal-Bench(代理編碼與終端使用)#1