DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Bu yılki en sevdiğim makale: "Video modelleri sıfır şanslı öğrenenler ve mantık yürütücülerdir" Video modellerinin ölçekte ortaya çıkan görsel akıl yürütme gösterdiğini gösteriyor - eğitilmedikleri görme görevlerini çözebiliyorlar. Bu, görme için "GPT anı" olabilir. Hadi bunu inceleyelim 👇

Başlamak gerekirse - neden video modellerinin görsel akıl yürütme geliştirebileceğine inanalım? Benzer bir şey metinde de oldu. Eskiden her görev için özel modeller eğitirdik - ama şimdi, LLM'ler genel dil anlayışına sahip ve açıkça eğitilmedikleri birçok görevi üstleyebiliyorlar. Video modellerinin de aynı şeyi ölçekli olarak yapması mümkün.

Bu makale, Veo 3 tarafından hem nitel hem de nicel görevlerde üretilen 18k+ videoyu ölçtü. Veo'nun görsel dünyayı algılayabileceğini, değiştirebileceğini ve manipüle edebildiğini (görsel + metin istemlerinden başlayarak) buldu - bu da özellikle eğitilmediği erken akıl yürütme becerilerini ortaya koydu. Her kategoriyi tek tek ele alacağız.

👀 Algı - Uyarıldığında, Veo kenarları algılayabilir ve sahnedeki belirgin nesneleri tanımlayabilir. Bu, o görev üzerinde eğitilmemiş olmasına rağmen segmentasyon modeli olarak çalışabileceği anlamına gelir ve bunun bazı ilginç sonraki sonuçları vardır. 1) "Macaw'ın oturduğu dalın ucuna parlak mavi bir nokta ekleyin. Makavın gözü parlak kırmızıya döner. Geri kalan her şey zifiri karanlığa dönüşüyor." 2) "Mavi top anında parlamaya başlar. Statik kamera perspektifi."

🌐 Modelleme - Veo, bu algıya dayanarak dünyayı (ve onu yöneten ilkeleri) modelleyebilir. Fiziksel konuları güçlü bir şekilde kavradığını gösteriyor - hava direnci ve kaldırma gibi şeyler, kırılma ve yansıma gibi optik olaylar ve renk karıştırması. 1) "El nesneyi bırakıyor" 2) "Devasa bir ayna parlatma metal küre odada yuvarlanıyor"

🤏 Manipülasyon - Veo, bu algı ve modelleme temelinde görsel dünyayı manipüle edebilir. Bu, sıfır çekimli görüntü düzenleme görevlerini mümkün kılar - sahne kompozisyonu, arka plan kaldırma, stil aktarımı veya hatta ustaca manipülasyon gibi şeyleri düşünün. 1) "Sağduyu kullanın ve iki robot eli kollarına bağlı olarak kavanozu açın, tıpkı bir insan gibi." 2) "Bu selfie'yi LinkedIn için profesyonel bir fotoğrafa dönüştür."

🤔 Görsel akıl yürütme - yukarıdaki tüm beceriler akıl yürütmeye yol açar. Bu, modele adım adım akıl yürütme gerektiren vizyon tabanlı zorluklar verilerek ölçülür. Düşünün benzetmeler yapmak, labirentleri veya bulmacaları çözmek, araçlar kullanmak ya da bir grafik üzerinde dolaşmak gibi. 1) "Siyah sınırı aşmadan, köşedeki gri fare, labirentte ustaca dolaşarak sarı peyniri bulana kadar dolaşır." 2) "Sağ alt ızgarayı, diğer ızgaraların kuralına uyacak şekilde değiştirin. Hücreleri doldurabilir, hücreleri temizleyebilir veya bir hücrenin rengini değiştirebilirsin."

İşte harika haber: görsel akıl yürütme zamanla daha iyi hale geliyor. Bu görevlerin çoğunda performans Veo 2 ile Veo 3 arasında anlamlı şekilde arttı. Aşağıda birkaç örnek ekledim. Özet; Özet - "Video modellerinde doğru fizik bekliyorsanız, sırada kalın" 😂

264

En İyiler

Sıralama

Takip Listesi