Neue Benchmark-Warnung! LiveMCPBench fordert LLM-Agenten heraus, sich in den Komplexitäten der Model Context Protocol (MCP) Werkzeuge zurechtzufinden. Testet reale Szenarien mit 95 Aufgaben, 70 MCP-Servern und 527 Werkzeugen!
81,37K