DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Kanske borde jag ha gjort detta tydligare, men en hel del människor verkar förvirra vad detta riktmärke faktiskt mäter. Det är INTE, och det försöker inte heller vara ett mått på agentisk eller IRL-kodningsförmåga. Den försöker approximera de matematiska förmågorna hos nuvarande LLM:er på en uppsättning problem som jag har intuitionen är särskilt svåra att lösa för dagens modellarkitekturer. Jag personligen tenderar att värdera matematiska förmågor mycket mer än de flesta, och det är helt okej. De flesta ppl borde inte bry sig om matematik imo och kanske Claude-4-5-Sonnet är bättre för saker u värde mer i en LLM. Men enbart för knepiga matematiska problem – och detta är vad det här diagrammet hävdar – överträffar GLM-4.6 Claude-4-5-Sonnet, varken mer eller mindre. Det är INTE bevis, och påstår inte heller, att Claude-4-5-Sonnet är en generellt sämre modell eller inte det bättre valet för dig. Jag vet inte om vissa ppl vill tolka det fel, men jag antog att majoriteten av ppl kan göra ovanstående överföring. Det tar bokstavligen bara att tänka, läsa och titta på diagrammet i mer än 2 sekunder.

Topp

Rankning

Favoriter