Il mio gruppo e i miei collaboratori hanno sviluppato molti benchmark popolari nel corso degli anni, ad esempio MMLU, MATH, APPS--- sono davvero entusiasta del nostro ultimo benchmark OMEGA Ω: 🔍Gli LLM possono davvero pensare fuori dagli schemi in matematica? Un nuovo benchmark che sonda 3 assi di generalizzazione: 1️⃣ Esplorativo 2️⃣ Compositivo 3️⃣ Trasformativo mostrando i limiti dell'odierna formazione di frontiera dell'IA e della RL in queste dimensioni di generalizzazione. Ispirata dalla tipologia di creatività di Boden, OMEGA va oltre i precedenti benchmark con un set di dati generato in modo programmatico che combina un controllo preciso con una ricca diversità. Abbracciando un'ampia gamma di domini matematici, è esplicitamente progettato per valutare assi distinti di generalizzazione e ragionamento creativo. Isolando e quantificando le modalità di guasto a grana fine, OMEGA fornisce una base per far progredire gli LLM verso un'autentica creatività matematica, che va oltre la competenza meccanica. Un enorme ringraziamento al mio postdoc @YiyouSun @UCBerkeley aver guidato il progetto, e ai fantastici collaboratori @nouhadziri @HannaHajishirzi @allen_ai e ad altri co-autori!