المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
بحثي المفضل هذا العام: "نماذج الفيديو هي متعلمات ومنطقات صفرية"
يوضح أن نماذج الفيديو تظهر التفكير البصري الناشئ على نطاق واسع - حيث يمكنها حل مهام الرؤية التي لم يتدربوا عليها.
قد يكون هذا هو "لحظة GPT" للرؤية. دعونا نحللها 👇
لنبدأ - لماذا نعتقد أن نماذج الفيديو قد تطور التفكير البصري؟
حدث شيء مشابه في النص. كنا ندرب نماذج محددة لكل مهمة - لكن الآن، لدى نماذج اللغة الكبيرة فهم لغوي عام ويمكنها التعامل مع العديد من المهام التي لم يتم تدريبها عليها صراحة.
من الممكن أن تفعل نماذج الفيديو الشيء نفسه على نطاق واسع.

قامت هذه الورقة بقياس 18k+ فيديوهات تم إنتاجها بواسطة Veo 3 عبر المهام النوعية والكمية.
وجدت أن Veo يمكنه إدراك العالم البصري وتعديله والتلاعب به (بدءا من تعليمات الصورة + النص) - مما يظهر مهارات التفكير المبكرة التي لم يدرب عليها صراحة.
سنتناول كل فئة واحدة تلو الأخرى.

👀 الإدراك - عند طلب ذلك، يمكن لفيو اكتشاف الحواف وتحديد الأشياء المميزة في المشهد.
وهذا يعني أنه يمكن أن يعمل كنموذج تقسيم رغم عدم تدريبه على تلك المهمة، مما له بعض الآثار المثيرة للاهتمام في المراحل اللاحقة.
1) "أضف نقطة زرقاء زاهية على طرف الغصن الذي يجلس عليه الببغاو. تتحول عين الببغاء إلى اللون الأحمر الساطع. كل شيء آخر يصبح مظلما تماما."
2) "تبدأ الكرة الزرقاء فورا في التوهج. زاوية كاميرا ثابتة."
🌐 النمذجة - يمكن ل Veo نمذجة العالم (والمبادئ التي تحكمه) بناء على هذا التصور.
يظهر فهما قويا للفيزياء - أشياء مثل مقاومة الهواء والطفو، والظواهر البصرية مثل الانكسار والانعكاس، وخلط الألوان.
1) "اليد تترك الشيء"
2) "كرة معدنية ضخمة من تلميع المرآة تتدحرج عبر الغرفة"
🤏 التلاعب - يمكن لفيو التلاعب بالعالم البصري بناء على هذا الإدراك والنمذجة.
هذا يتيح مهام تحرير الصور بدون لقطة - مثل تركيب المشاهد، إزالة الخلفية، نقل الأسلوب، أو حتى التلاعب الماهرة.
1) "استخدم الحس السليم واجعل اليدين الروبوتين المتصلتين بالأذرع يفتحان البرطمان، كما يفعل الإنسان."
2) "حول هذه الصورة السيلفي إلى صورة شخصية احترافية على لينكدإن."
🤔 التفكير البصري - كل المهارات السابقة تؤدي إلى التفكير.
يتم قياس ذلك من خلال تقديم تحديات قائمة على الرؤية للنموذج تتطلب تفكيرا خطوة بخطوة.
فكر في صنع تشبيهات، حل متاهات أو ألغاز، استخدام الأدوات، أو التنقل عبر رسم بياني.
1) "دون عبور أي حدود سوداء، يتنقل الفأر الرمادي من الزاوية بمهارة في المتاهة بالمشي حتى يجد الجبن الأصفر."
2) "تعديل الشبكة السفلية اليمنى لتتوافق مع القاعدة التي وضعتها الشبكات الأخرى. يمكنك ملء الخلايا، أو تنظيف الزنزانات، أو تغيير لون الخلية."
إليك الخبر الرائع: التفكير البصري يتحسن مع مرور الوقت.
ارتفع الأداء في العديد من هذه المهام بشكل ملحوظ بين Veo 2 وVeo 3. أدرجت بعض الأمثلة أدناه.
ملخص؛ ملخص - "إذا كنت تنتظر فيزياء دقيقة في نماذج الفيديو، ابق ملتزما" 😂

208
الأفضل
المُتصدِّرة
التطبيقات المفضلة
