Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài báo yêu thích của tôi năm nay: "Mô hình video là người học và lý luận không cần huấn luyện"
Nó minh họa rằng các mô hình video cho thấy khả năng lý luận hình ảnh nổi bật ở quy mô lớn - chúng có thể giải quyết các nhiệm vụ thị giác mà chúng không được huấn luyện.
Điều này có thể là "thời điểm GPT" cho thị giác. Hãy phân tích nó 👇
Để bắt đầu - tại sao lại tin rằng các mô hình video có thể phát triển khả năng lý luận hình ảnh?
Một điều tương tự đã xảy ra trong văn bản. Chúng tôi từng đào tạo các mô hình cụ thể cho từng nhiệm vụ - nhưng bây giờ, các LLM có khả năng hiểu ngôn ngữ tổng quát và có thể giải quyết nhiều nhiệm vụ mà chúng không được đào tạo một cách rõ ràng.
Có khả năng rằng các mô hình video cũng có thể làm điều tương tự ở quy mô lớn.

Bài báo này đã đo lường hơn 18k video được tạo ra bởi Veo 3 trong cả nhiệm vụ định tính và định lượng.
Nó phát hiện rằng Veo có thể nhận thức, sửa đổi và thao tác thế giới hình ảnh (bắt đầu từ hình ảnh + văn bản gợi ý) - thể hiện những kỹ năng lý luận sớm mà nó không được đào tạo một cách rõ ràng.
Chúng ta sẽ giải quyết từng danh mục một.

👀 Nhận thức - khi được nhắc đến, Veo có thể phát hiện các cạnh và xác định các đối tượng khác nhau trong một cảnh.
Điều này có nghĩa là nó có thể hoạt động như một mô hình phân đoạn mặc dù không được đào tạo cho nhiệm vụ đó, điều này có một số hệ quả thú vị ở phía sau.
1) "Thêm một chấm xanh sáng ở đầu cành mà con macaw đang ngồi. Mắt của con macaw chuyển sang màu đỏ sáng. Mọi thứ khác trở nên đen kịt."
2) "Quả bóng xanh ngay lập tức bắt đầu phát sáng. Góc nhìn camera tĩnh."
🌐 Mô hình - Veo có thể mô hình hóa thế giới (và các nguyên tắc chi phối nó) dựa trên nhận thức này.
Nó thể hiện sự nắm bắt vững chắc về vật lý - những thứ như lực cản của không khí và độ nổi, các hiện tượng quang học như khúc xạ và phản xạ, và sự pha trộn màu sắc.
1) "Bàn tay buông bỏ vật thể"
2) "Một quả cầu kim loại bóng loáng khổng lồ lăn qua phòng"
🤏 Manipulation - Veo có thể thao tác thế giới hình ảnh dựa trên nhận thức và mô hình hóa này.
Điều này cho phép thực hiện các tác vụ chỉnh sửa hình ảnh không cần ví dụ - hãy nghĩ đến những thứ như ghép cảnh, loại bỏ nền, chuyển giao phong cách, hoặc thậm chí là thao tác khéo léo.
1) "Sử dụng lý trí và để hai bàn tay robot gắn vào cánh tay mở nắp lọ, giống như một con người sẽ làm."
2) "Biến bức selfie này thành một bức chân dung chuyên nghiệp cho LinkedIn."
🤔 Lý luận trực quan - tất cả các kỹ năng trên dẫn đến lý luận.
Điều này được đo bằng cách đưa ra cho mô hình những thử thách dựa trên thị giác yêu cầu lý luận từng bước.
Hãy nghĩ đến việc tạo ra các phép tương tự, giải các mê cung hoặc câu đố, sử dụng công cụ, hoặc đi qua một đồ thị.
1) "Không vượt qua bất kỳ ranh giới đen nào, con chuột xám từ góc khéo léo điều hướng mê cung bằng cách đi vòng quanh cho đến khi nó tìm thấy phô mai vàng."
2) "Chỉnh sửa lưới ở góc dưới bên phải để tuân theo quy tắc đã được thiết lập bởi các lưới khác. Bạn có thể điền vào các ô, xóa các ô, hoặc thay đổi màu của một ô."
Đây là tin tuyệt vời: khả năng suy luận hình ảnh đang ngày càng cải thiện theo thời gian.
Hiệu suất trên nhiều nhiệm vụ này đã tăng lên đáng kể giữa Veo 2 và Veo 3. Tôi đã bao gồm một vài ví dụ bên dưới.
Tóm lại - "Nếu bạn đang chờ đợi vật lý chính xác trong các mô hình video, hãy đứng xếp hàng" 😂

206
Hàng đầu
Thứ hạng
Yêu thích
