💥 الإعلان عن GDPval ، وهو تقييم جديد يقيس أداء النموذج في مهام العالم الحقيقي ذات القيمة الاقتصادية عبر 44 مهنة.
Evals تشبه اختبارات النموذج - في المدرسة لديك اختبارات رياضيات واختبارات إملائية واختبارات تاريخ. نحن نفعل الكثير لاختبار نماذجنا على القدرة الحصانية للتفكير الخام بالفعل.
الهدف من GDPval هو اختبار المهام التي يقوم بها المحترفون على أساس يومي - مع مراعاة السياق وإنشاء مخرجات مثل المستندات والشرائح والرسوم البيانية وجداول البيانات ، عبر مهن مثل العقارات والحكومة والعمل الاجتماعي والهندسة الميكانيكية والمحاسبة والتمريض وخدمة العملاء والاستشارات المالية والمزيد.
أفضل الموديلات (GPT-5 ، كلود ، الجوزاء) لم تتفوق بعد على خبراء الصناعة ، لكنها تقترب كثيرا - وهي أسرع وأرخص.
وتهانينا @tejalpatwardhan وفريقه على العمل المذهل في GDPval!
‏‎23.96‏K