Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Моя група та співробітники розробили багато популярних тестів протягом багатьох років, наприклад, MMLU, MATH, APPS--- дуже в захваті від нашого останнього бенчмарку OMEGA Ω:
🔍Чи справді LLM можуть мислити нестандартно в математиці?
Новий еталон, що досліджує 3 осі узагальнення:
1️⃣ Розвідувальний
2️⃣ Композиційні
3️⃣ Трансформаційний
показуючи обмеженість сучасного передового ШІ та РЛ-навчання в цих вимірах узагальнення.
Натхненна типологією творчості Бодена, OMEGA виходить за рамки попередніх еталонів завдяки програмно згенерованому набору даних, який поєднує в собі точний контроль з багатою різноманітністю. Охоплюючи широкий спектр математичних областей, вона спеціально розроблена для оцінки чітких осей узагальнення та творчого мислення.
Виділяючи та кількісно оцінюючи дрібнозернисті режими відмов, OMEGA забезпечує основу для просування LLM до справжньої математичної творчості — за межами механічних навичок.
Величезне спасибі моєму постдоктору @YiyouSun @UCBerkeley керівнику проекту, а також чудовим співавторам @nouhadziri @HannaHajishirzi @allen_ai та іншим співавторам!
Найкращі
Рейтинг
Вибране