Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Giám đốc Robot và Nhà khoa học xuất sắc của NVIDIA. Đồng trưởng phòng thí nghiệm GEAR. Giải quyết AGI vật lý, từng động cơ một. Stanford Ph.D. Thực tập sinh đầu tiên của OpenAI.
Chúng tôi đã huấn luyện một robot hình người với bàn tay khéo léo 22-DoF để lắp ráp mô hình ô tô, vận hành ống tiêm, phân loại bài poker, gấp/cuộn áo, tất cả đều được học chủ yếu từ hơn 20.000 giờ video con người tự thân mà không có robot trong quy trình.
Con người là hình thức hiện thân có thể mở rộng nhất trên hành tinh. Chúng tôi đã phát hiện ra một quy luật tỷ lệ log-linear gần như hoàn hảo (R² = 0.998) giữa khối lượng video con người và độ mất mát dự đoán hành động, và độ mất mát này dự đoán trực tiếp tỷ lệ thành công của robot thực.
Robot hình người sẽ là đích đến cuối cùng, vì chúng là hình thức thực tiễn với khoảng cách hiện thân tối thiểu so với con người. Hãy gọi đó là Bài học Đắng về phần cứng robot: sự tương đồng động học cho phép chúng tôi đơn giản chỉ cần chuyển hướng chuyển động ngón tay của con người lên các khớp tay robot khéo léo. Không cần các nhúng đã học, không cần các thuật toán chuyển giao phức tạp. Chuyển động cổ tay tương đối + các hành động ngón tay 22-DoF đã chuyển hướng phục vụ như một không gian hành động thống nhất mà mang theo từ giai đoạn tiền huấn luyện đến thực thi robot.
Công thức của chúng tôi được gọi là "EgoScale":
- Tiền huấn luyện GR00T N1.5 trên 20K giờ video con người, giữa quá trình huấn luyện chỉ với 4 giờ (!) dữ liệu chơi robot với bàn tay Sharpa. Tăng 54% so với việc huấn luyện từ đầu trên 5 nhiệm vụ khéo léo cao.
- Kết quả bất ngờ nhất: một *demo* điều khiển từ xa *duy nhất* là đủ để học một nhiệm vụ chưa từng thấy trước đây. Công thức của chúng tôi cho phép hiệu quả dữ liệu cực cao.
- Mặc dù chúng tôi tiền huấn luyện trong không gian khớp tay 22-DoF, chính sách chuyển giao sang Unitree G1 với bàn tay ba ngón 7-DoF. Tăng 30%+ so với việc huấn luyện chỉ trên dữ liệu G1.
Con đường có thể mở rộng đến sự khéo léo của robot chưa bao giờ là nhiều robot hơn. Nó luôn là chúng ta.
Những phân tích sâu trong chủ đề:
187
Thông báo DreamDojo: mô hình thế giới tương tác mã nguồn mở của chúng tôi, điều khiển động cơ robot và tạo ra tương lai trong các pixel. Không có động cơ, không có lưới, không có động lực do con người viết tay. Đây là Simulation 2.0. Đã đến lúc robotics phải học bài học đắng.
Việc học robot trong thế giới thực bị hạn chế bởi thời gian, hao mòn, an toàn và việc khởi động lại. Nếu chúng ta muốn AI Vật lý di chuyển với tốc độ trước khi huấn luyện, chúng ta cần một trình giả lập thích ứng với quy mô trước khi huấn luyện với càng ít kỹ thuật viên con người càng tốt.
Những hiểu biết chính của chúng tôi: (1) video egocentric của con người là nguồn vật lý từ góc nhìn thứ nhất có thể mở rộng; (2) hành động tiềm ẩn khiến chúng "có thể đọc được bởi robot" trên các phần cứng khác nhau; (3) suy diễn thời gian thực mở khóa điều khiển từ xa trực tiếp, đánh giá chính sách và lập kế hoạch thời gian thử nghiệm *trong* một giấc mơ.
Chúng tôi đã huấn luyện trước trên 44K giờ video của con người: rẻ, phong phú và được thu thập mà không có robot trong vòng lặp. Con người đã khám phá các tổ hợp: chúng tôi nắm, đổ, gấp, lắp ráp, thất bại, thử lại—trong các cảnh lộn xộn, góc nhìn thay đổi, ánh sáng thay đổi và chuỗi nhiệm vụ kéo dài hàng giờ—ở quy mô mà không đội robot nào có thể sánh kịp. Mảnh ghép còn thiếu: những video này không có nhãn hành động. Vì vậy, chúng tôi giới thiệu hành động tiềm ẩn: một đại diện thống nhất được suy diễn trực tiếp từ video mà không cần biết phần cứng cơ bản. Điều này cho phép chúng tôi huấn luyện trên bất kỳ video góc nhìn thứ nhất nào như thể nó đi kèm với các lệnh động cơ.
Kết quả là, DreamDojo tổng quát không cần huấn luyện cho các đối tượng và môi trường chưa từng thấy trong bất kỳ bộ dữ liệu huấn luyện robot nào, vì con người đã thấy chúng trước.
Tiếp theo, chúng tôi huấn luyện sau cho mỗi robot để phù hợp với phần cứng cụ thể của nó. Hãy nghĩ về nó như việc tách "thế giới trông như thế nào và hành xử ra sao" khỏi "robot cụ thể này hoạt động như thế nào." Mô hình cơ bản tuân theo các quy tắc vật lý chung, sau đó "gắn vào" cơ chế độc đáo của robot. Nó giống như việc tải một nhân vật mới và tài sản cảnh vào Unreal Engine, nhưng được thực hiện thông qua giảm dần gradient và tổng quát vượt xa bộ dữ liệu huấn luyện sau.
Một trình giả lập thế giới chỉ hữu ích nếu nó chạy đủ nhanh để đóng vòng lặp. Chúng tôi huấn luyện một phiên bản thời gian thực của DreamDojo chạy ở 10 FPS, ổn định trong hơn một phút phát hành liên tục. Điều này mở khóa những khả năng thú vị:
- Điều khiển từ xa trực tiếp *trong* một giấc mơ. Kết nối một bộ điều khiển VR, phát trực tiếp hành động vào DreamDojo và điều khiển một robot ảo trong thời gian thực. Chúng tôi trình diễn điều này trên Unitree G1 với một bộ kính PICO và một RTX 5090.
- Đánh giá chính sách. Bạn có thể đánh giá một điểm kiểm tra chính sách trong DreamDojo thay vì trong thế giới thực. Tỷ lệ thành công mô phỏng tương quan mạnh mẽ với kết quả thực tế - đủ chính xác để xếp hạng các điểm kiểm tra mà không tiêu tốn một động cơ nào.
- Lập kế hoạch dựa trên mô hình. Lấy mẫu nhiều đề xuất hành động → mô phỏng tất cả chúng song song → chọn tương lai tốt nhất. Tăng +17% tỷ lệ thành công trong thế giới thực ngay lập tức trong một nhiệm vụ đóng gói trái cây.
Chúng tôi mở mã nguồn mọi thứ!! Trọng số, mã, bộ dữ liệu huấn luyện sau, bộ đánh giá và tài liệu trắng với rất nhiều chi tiết để tái tạo. DreamDojo dựa trên NVIDIA Cosmos, cũng có trọng số mở.
Năm 2026 là năm của Mô hình Thế giới cho AI vật lý. Chúng tôi muốn bạn xây dựng cùng chúng tôi. Chúc bạn mở rộng thành công!
364
Hàng đầu
Thứ hạng
Yêu thích

