Штучний інтелект на математичній олімпіаді: нова ера вирішення математичних проблем IMO вже давно є найжорсткішим у світі математичним змаганням для найкращих студентів. Тепер це також стає еталоном для міркувань штучного інтелекту. 👇
Цей рік ознаменувався важливою віхою: Моделі штучного інтелекту від Google DeepMind і OpenAI досягли золотої медалі в задачах IMO — на тому ж рівні, що й найкращі люди-учасники. Справжній стрибок у здатності штучного інтелекту міркувати за допомогою абстрактної математики.
Хронологія подій: > п'ятниця: Просочилися новини про виступ DeepMind за золоту медаль > суботи о 1 годині ночі: OpenAI оголосила результати перед офіційним підтвердженням > понеділок: DeepMind офіційно підтвердив статус золотої медалі з елегантними рішеннями, повністю перевіреними офіційними особами IMO. Їхні рішення були більш елегантними та ретельно перевіреними
Технологічний зсув з 2024 до 2025 року Минулого року: моделі штучного інтелекту на кшталт AlphaGeometry потребували перекладу домену (Lean тощо) + 2–3 дні обчислень. Цього року: моделі Gemini та OpenAI вирішували проблеми наскрізно природною мовою, в межах 4,5-годинного ліміту IMO.
Відмінності стилів Відповіді OpenAI: > Логічно обґрунтовано, але безладно > Недостатня структура, часто вживані терміни на кшталт «заборонено» > 400+ рядків для вирішення деяких проблем > Не читається людиною Докази Близнюків: > Елегантні та чіткі, грейдери IMO сказали, що їх "легко дотримуватися" > Міг би здатися написаним людиною
Задача 2 (Геометрія) показала розрив: OpenAI використовувала геометрію координат грубої сили → правильного, але незграбного 442-рядкового доказу Gemini від DeepMind використовували теорему Сильвестра про погоню за кутом і → лаконічне, проникливе рішення, яке відображає вмілу людину.
Чому це вдалося Близнюкам > Паралельне мислення: одночасне дослідження кількох шляхів вирішення > Нові методи навчання з підкріпленням, що покращують багатокрокові міркування > Доступ до ретельно підібраних математичних рішень і стратегічних підказок
Підхід OpenAI? RL загального призначення + масштабування обчислень під час тестування.
Що це означає Розв'язання задач IMO вражає, але справжня математика сягає глибше: > Абстрактні міркування > Створення концепції > Дослідницька інтуїція Ми ще не досягли цього, але це реальний крок уперед.
Щоб по-справжньому просунути математичні можливості штучного інтелекту вперед, нам знадобиться: > Гранульовані функції винагороди > Спеціалізовані трубопроводи RL > А може... Техніка вайлдкарда, про яку ніхто не здогадувався
У міру того, як штучний інтелект проникає в математику, науку та дослідження, потреба в обчисленнях стрімко зростає. Ось чому доступ до доступної, масштабованої інфраструктури графічних процесорів є критично важливим. Давайте зробимо це майбутнє доступним для всіх.
Ознайомтеся з повним текстом блогу тут:
Наш повний подкаст з Latent Space тут:
1,07K