Ehkä minun olisi pitänyt tehdä tämä selvemmäksi, mutta melko monet ihmiset näyttävät hämmentävän sitä, mitä tämä vertailuarvo todella mittaa. Se EI ole, eikä se yritä olla agenttisen tai IRL-koodauskyvyn mittari. Se yrittää arvioida nykyisten LLM:ien matemaattisia kykyjä ongelmissa, joita intuitioni on erityisen vaikea ratkaista nykypäivän malliarkkitehtuureissa. Henkilökohtaisesti arvostan matemaattisia kykyjä paljon enemmän kuin useimmat henkilöt, ja tämä on täysin ok. Useimpien ppl:n ei pitäisi välittää matematiikasta, ja ehkä Claude-4-5-Sonnet on parempi asioihin, joita arvostat enemmän LLM:ssä. Mutta tiukasti hankalissa matemaattisissa ongelmissa – ja näin tämä kaavio väittää – GLM-4.6 on juuri ja juuri parempi kuin Claude-4-5-Sonnet, ei enempää, ei vähemmän. Se EI ole todiste eikä väitä, että Claude-4-5-Sonnet on kaiken kaikkiaan huonompi malli tai ei parempi valinta sinulle. En tiedä haluavatko jotkut ihmiset tulkita sen väärin, mutta oletin, että suurin osa ppl:istä voi tehdä yllä olevan siirron. Se vaatii kirjaimellisesti vain ajattelua, lukemista ja kaavion katsomista yli 2 sekuntia.