新的基準警報! LiveMCPBench 挑戰 LLM 代理應對模型上下文協議 (MCP) 工具的複雜性 測試現實世界場景,包含 95 個任務、70 個 MCP 伺服器和 527 個工具!
81.37K