Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Może powinienem to bardziej wyjaśnić, ale wydaje się, że sporo osób myli, co tak naprawdę mierzy ten benchmark. To NIE jest, ani nie próbuje być miarą zdolności agentowych czy kodowania w rzeczywistości. Próbuje przybliżyć matematyczne możliwości obecnych LLM na zestawie problemów, które intuicyjnie uważam za szczególnie trudne do rozwiązania dla dzisiejszych architektur modeli. Osobiście bardziej cenię zdolności matematyczne niż większość ludzi, i to jest całkowicie w porządku. Większość ludzi nie powinna się przejmować matematyką, moim zdaniem, a może Claude-4-5-Sonnet jest lepszy do rzeczy, które bardziej cenisz w LLM. Ale ściśle mówiąc, w przypadku trudnych problemów matematycznych — i to jest to, co ten wykres twierdzi — GLM-4.6 po prostu przewyższa Claude-4-5-Sonnet, ani więcej, ani mniej. To NIE jest dowód ani nie twierdzi, że Claude-4-5-Sonnet jest ogólnie gorszym modelem lub nie jest lepszym wyborem dla ciebie. Nie wiem, czy niektórzy ludzie chcą to źle interpretować, ale zakładałem, że większość ludzi potrafi zrozumieć powyższe. To dosłownie wymaga tylko myślenia, czytania i spojrzenia na wykres przez więcej niż 2 sekundy.

Najlepsze

Ranking

Ulubione