Misschien had ik dit duidelijker moeten maken, maar behoorlijk wat mensen lijken te verwarren wat deze benchmark eigenlijk meet. Het is NIET, noch probeert het een meting te zijn van agentic of IRL coderingscapaciteiten. Het probeert de wiskundige capaciteiten van huidige LLM's te benaderen op een set problemen waarvan ik de intuïtie heb dat ze bijzonder moeilijk op te lossen zijn voor de modelarchitecturen van vandaag. Persoonlijk hecht ik veel meer waarde aan wiskundige capaciteiten dan de meeste mensen, en dat is helemaal prima. De meeste mensen zouden zich imo niet druk moeten maken om wiskunde en misschien is Claude-4-5-Sonnet beter voor dingen die je meer waardeert in een LLM. Maar strikt voor lastige wiskundeproblemen—en dat is wat deze grafiek beweert—overtreft GLM-4.6 gewoon Claude-4-5-Sonnet, niet meer, niet minder. Het is NIET bewijs, noch beweert het, dat Claude-4-5-Sonnet een algeheel slechter model is of niet de betere keuze voor jou. Ik weet niet of sommige mensen het verkeerd willen interpreteren, maar ik ging ervan uit dat de meerderheid van de mensen de bovenstaande overdracht kan maken. Het kost letterlijk gewoon denken, lezen en naar de grafiek kijken voor meer dan 2 seconden.