Možná jsem to měl objasnit, ale zdá se, že docela dost lidí si plete, co tento benchmark vlastně měří. NENÍ, ani se nesnaží být měřením agentních nebo IRL kódovacích schopností. Snaží se přiblížit matematickým schopnostem současných LLM na souboru problémů, o kterých mám intuici, že jsou obzvláště těžko řešitelné pro dnešní modelové architektury. Osobně si cením matematických schopností mnohem více než většina lidí a to je naprosto v pořádku. Většina lidí by se neměla zajímat o matematiku imo a možná je Claude-4-5-Sonet lepší pro věci, kterých si ceníte více v LLM. Ale striktně pro složité matematické problémy – a to je to, co tvrdí tento graf – GLM-4.6 prostě překonává Claude-4-5-Sonnet, ne více, ne méně. NENÍ to důkaz ani netvrdí, že Claude-4-5-Sonnet je celkově horší model nebo že pro vás není lepší volbou. Nevím, jestli to někteří ppl chtějí interpretovat špatně, ale předpokládal jsem, že většina ppl může provést výše uvedený přenos. Doslova to vyžaduje jen přemýšlení, čtení a dívání se na graf déle než 2 sekundy.