Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 Představujeme GDPval, nový evaluátor, který měří výkonnost modelů v ekonomicky hodnotných reálných úkolech ve 44 profesích.
Hodnocení je jako testy pro model – ve škole máte testy z matematiky, pravopisné testy, testy z dějepisu. Děláme toho hodně, abychom otestovali naše modely na hrubé koňské síle uvažování.
Cílem GDPval je testovat úkoly, které profesionálové dělají na denní bázi – brát v kontextu a vytvářet výstupy, jako jsou dokumenty, snímky, diagramy a tabulky, napříč profesemi, jako jsou nemovitosti, státní správa, sociální práce, strojírenství, účetnictví, ošetřovatelství, zákaznický servis, finanční poradenství a další.
Nejlepší modely (GPT-5, Claude, Gemini) zatím neporážejí odborníky z oboru, ale docela se jim přibližují – a jsou rychlejší a levnější.
A gratulujeme @tejalpatwardhan a týmu k neuvěřitelné práci na GDPval!
23,16K
Top
Hodnocení
Oblíbené