Quizás debería haberlo dejado más claro, pero parece que bastante gente confunde lo que realmente mide este benchmark. NO es, ni intenta ser, una medida de las capacidades de codificación agentivas o en la vida real. Intenta aproximar las capacidades matemáticas de los LLM actuales en un conjunto de problemas que tengo la intuición de que son particularmente difíciles de resolver para las arquitecturas de modelos de hoy en día. Personalmente, tiendo a valorar las capacidades matemáticas mucho más que la mayoría de la gente, y eso está totalmente bien. La mayoría de la gente no debería preocuparse por las matemáticas en mi opinión y tal vez Claude-4-5-Sonnet sea mejor para cosas que valoras más en un LLM. Pero estrictamente para problemas matemáticos complicados—y esto es lo que afirma este gráfico—GLM-4.6 simplemente supera a Claude-4-5-Sonnet, ni más ni menos. NO es evidencia ni afirma que Claude-4-5-Sonnet sea un modelo overall peor o no la mejor opción para ti. No sé si algunas personas quieren interpretarlo mal, pero asumí que la mayoría de la gente puede hacer la transferencia anterior. Literalmente solo requiere pensar, leer y mirar el gráfico durante más de 2 segundos.