Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Моя группа и коллеги разработали множество популярных бенчмарков на протяжении многих лет, например, MMLU, MATH, APPS --- очень рады нашему последнему бенчмарку OMEGA Ω:
🔍Могут ли магистры права мыслить нестандартно в математике?
Новый бенчмарк, прощупывающий 3 оси обобщения:
1️⃣ Исследовательский
2️⃣ Композиционный
3️⃣ Преобразующий
показывая ограничения современных передовых ИИ и RL-обучения в этих измерениях обобщения.
Вдохновленная типологией творчества Бодена, OMEGA выходит за рамки предыдущих эталонов с помощью программного набора данных, сочетающего в себе точное управление и богатое разнообразие. Охватывая широкий спектр математических областей, он специально разработан для оценки различных осей обобщения и творческого мышления.
Выделяя и количественно определяя детализированные режимы отказа, OMEGA создает основу для продвижения LLM к подлинному творческому творчеству в области математики, выходящей за рамки мастерства в механике.
Огромное спасибо моему постдоку @YiyouSun @UCBerkeley руководстве проектом, а также замечательным соавторам @nouhadziri @HannaHajishirzi @allen_ai и другим соавторам!
Топ
Рейтинг
Избранное