Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Talvez eu devesse ter deixado isso mais claro, mas parece que muitas pessoas confundem o que este benchmark realmente mede. NÃO é, nem tenta ser uma medida das capacidades de codificação agentivas ou da vida real. Ele tenta aproximar as capacidades matemáticas dos LLMs atuais em um conjunto de problemas que eu tenho a intuição de que são particularmente difíceis de resolver para as arquiteturas de modelo de hoje. Pessoalmente, eu costumo valorizar as capacidades matemáticas muito mais do que a maioria das pessoas, e isso é totalmente aceitável. A maioria das pessoas não deveria se importar com matemática, na minha opinião, e talvez Claude-4-5-Sonnet seja melhor para coisas que você valoriza mais em um LLM. Mas estritamente para problemas matemáticos complicados—e é isso que este gráfico afirma—GLM-4.6 simplesmente supera Claude-4-5-Sonnet, nem mais, nem menos. NÃO é evidência, nem afirma, que Claude-4-5-Sonnet é um modelo overall pior ou não é a melhor escolha para você. Eu não sei se algumas pessoas querem interpretar isso de forma errada, mas eu assumi que a maioria das pessoas consegue fazer a transferência acima. Literalmente, só leva pensar, ler e olhar para o gráfico por mais de 2 segundos.

Top

Classificação

Favoritos