Моя группа и коллеги разработали множество популярных бенчмарков на протяжении многих лет, например, MMLU, MATH, APPS --- очень рады нашему последнему бенчмарку OMEGA Ω: 🔍Могут ли магистры права мыслить нестандартно в математике? Новый бенчмарк, прощупывающий 3 оси обобщения: 1️⃣ Исследовательский 2️⃣ Композиционный 3️⃣ Преобразующий показывая ограничения современных передовых ИИ и RL-обучения в этих измерениях обобщения. Вдохновленная типологией творчества Бодена, OMEGA выходит за рамки предыдущих эталонов с помощью программного набора данных, сочетающего в себе точное управление и богатое разнообразие. Охватывая широкий спектр математических областей, он специально разработан для оценки различных осей обобщения и творческого мышления. Выделяя и количественно определяя детализированные режимы отказа, OMEGA создает основу для продвижения LLM к подлинному творческому творчеству в области математики, выходящей за рамки мастерства в механике. Огромное спасибо моему постдоку @YiyouSun @UCBerkeley руководстве проектом, а также замечательным соавторам @nouhadziri @HannaHajishirzi @allen_ai и другим соавторам!