Có lẽ tôi nên làm rõ điều này hơn, nhưng khá nhiều người dường như nhầm lẫn về những gì tiêu chuẩn này thực sự đo lường. Nó KHÔNG phải, cũng như không cố gắng trở thành một phép đo khả năng lập trình agentic hoặc IRL. Nó cố gắng xấp xỉ khả năng toán học của các LLM hiện tại trên một tập hợp các vấn đề mà tôi có trực giác là đặc biệt khó giải cho các kiến trúc mô hình ngày nay. Cá nhân tôi có xu hướng đánh giá khả năng toán học cao hơn hầu hết mọi người, và điều này hoàn toàn bình thường. Hầu hết mọi người không nên quan tâm đến toán học theo ý kiến của tôi và có thể Claude-4-5-Sonnet tốt hơn cho những thứ bạn đánh giá cao hơn trong một LLM. Nhưng chỉ riêng cho các bài toán toán học khó - và đây là điều mà biểu đồ này tuyên bố - GLM-4.6 chỉ vượt trội hơn Claude-4-5-Sonnet, không hơn, không kém. Nó KHÔNG phải là bằng chứng cũng như không tuyên bố rằng Claude-4-5-Sonnet là một mô hình tồi tệ hơn tổng thể hoặc không phải là lựa chọn tốt hơn cho bạn. Tôi không biết liệu một số người có muốn diễn giải sai hay không, nhưng tôi giả định rằng phần lớn mọi người có thể thực hiện sự chuyển giao ở trên. Nó thực sự chỉ cần suy nghĩ, đọc và nhìn vào biểu đồ trong hơn 2 giây.