Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Może powinienem to bardziej wyjaśnić, ale wydaje się, że sporo osób myli, co tak naprawdę mierzy ten benchmark. To NIE jest, ani nie próbuje być miarą zdolności agentowych czy kodowania w rzeczywistości. Próbuje przybliżyć matematyczne możliwości obecnych LLM na zestawie problemów, które intuicyjnie uważam za szczególnie trudne do rozwiązania dla dzisiejszych architektur modeli. Osobiście bardziej cenię zdolności matematyczne niż większość ludzi, i to jest całkowicie w porządku. Większość ludzi nie powinna się przejmować matematyką, moim zdaniem, a może Claude-4-5-Sonnet jest lepszy do rzeczy, które bardziej cenisz w LLM. Ale ściśle mówiąc, w przypadku trudnych problemów matematycznych — i to jest to, co ten wykres twierdzi — GLM-4.6 po prostu przewyższa Claude-4-5-Sonnet, ani więcej, ani mniej. To NIE jest dowód ani nie twierdzi, że Claude-4-5-Sonnet jest ogólnie gorszym modelem lub nie jest lepszym wyborem dla ciebie. Nie wiem, czy niektórzy ludzie chcą to źle interpretować, ale zakładałem, że większość ludzi potrafi zrozumieć powyższe. To dosłownie wymaga tylko myślenia, czytania i spojrzenia na wykres przez więcej niż 2 sekundy.
Najlepsze
Ranking
Ulubione