Возможно, мне следовало сделать это более ясным, но довольно много людей, похоже, путают, что на самом деле измеряет этот бенчмарк. Это НЕ является, и не пытается быть измерением агентных или реальных возможностей программирования. Он пытается приблизительно оценить математические возможности текущих LLM на наборе задач, которые, как мне кажется, особенно трудно решить для архитектур моделей сегодняшнего дня. Лично я склонен ценить математические способности гораздо больше, чем большинство людей, и это совершенно нормально. Большинство людей, на мой взгляд, не должны заботиться о математике, и, возможно, Claude-4-5-Sonnet лучше подходит для вещей, которые вы цените больше в LLM. Но строго для сложных математических задач — и это то, что утверждает этот график — GLM-4.6 просто превосходит Claude-4-5-Sonnet, не больше, не меньше. Это НЕ является доказательством и не утверждает, что Claude-4-5-Sonnet является в целом худшей моделью или не лучшим выбором для вас. Я не знаю, хотят ли некоторые люди интерпретировать это неправильно, но я предполагал, что большинство людей могут сделать вышеуказанный вывод. Это буквально требует лишь размышлений, чтения и взгляда на график более чем на 2 секунды.