Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 Julkistamme GDPvalin, uuden evalin, joka mittaa mallien suorituskykyä taloudellisesti arvokkaissa, todellisissa tehtävissä 44 ammatissa.
Evalit ovat kuin mallin testejä – koulussa on matematiikan kokeita, oikeinkirjoituskokeita, historiakokeita. Teemme jo paljon testataksemme mallejamme raa'alla päättelyhevosvoimalla.
GDPvalin tavoitteena on testata ammattilaisten päivittäin tekemiä tehtäviä – ottaa konteksti huomioon ja luoda tuotoksia, kuten asiakirjoja, dioja, kaavioita ja laskentataulukoita, eri ammateissa, kuten kiinteistöalalla, julkishallinnossa, sosiaalityössä, konetekniikassa, kirjanpidossa, hoitotyössä, asiakaspalvelussa, talousneuvonnassa ja muissa.
Parhaat mallit (GPT-5, Claude, Gemini) eivät vielä päihitä alan asiantuntijoita, mutta ne ovat tulossa melko lähelle – ja ne ovat nopeampia ja halvempia.
Ja onnittelut @tejalpatwardhan ja tiimille uskomattomasta työstä GDPvalin parissa!
23,16K
Johtavat
Rankkaus
Suosikit