<이제 모델이 아니라, 데이터가 경쟁력이야> AI 산업의 핵심은 더 이상 컴퓨팅도, 모델도 아닌 '양질의 데이터'야. 과거 인류 문명이 석유를 통해 한 단계 고도화됐듯, AI도 더 나아가기 위해선 새로운 ‘연료’가 필요해. 2차 세계대전 전후에 석유가 에너지원이자 소재로 쓰이면서 공업화가 빠르게 진전된 것처럼 말이야. 이제는 누가, 어떻게 데이터를 확보하고 가공하느냐가 AI 시대의 주도권을 결정하게 될 거야. 일론 머스크도 올해 이런 얘길 했어. “우리는 인공지능 학습에서 인간 지식의 누적 합을 모두 소진했다.” GPT 같은 모델들이 웹사이트, 책, 코드, 이미지 같은 공개 데이터를 긁어모으면서 빠르게 성장해온 건 사실이야. 하지만 이제는 저작권이 걸려 있거나, 아예 존재하지 않는 새로운 형태의 데이터가 필요해졌어. 예를 들어 자율주행차, 로봇공학 같은 분야에서는 단순한 텍스트를 넘어, 카메라·레이더·라이다 등이 결합된 멀티센서 기반의 복합 데이터, 그리고 실제 환경에서 수집된 사례 데이터가 필요한데, 이런 데이터는 웹에 존재하지 않습니다. 더 큰 문제는 기술보다 ‘어떻게 잘 조합할 것이냐’야. 수천 명이 흩어진 채 데이터를 수집하고 라벨링하고 업데이트해야 하는데, 지금까지의 중앙집중형 방식으로는 이 다양성과 스케일을 감당하기 어려워. 그래서 요즘 AI 업계는 점점 분산형 방식이 해답이라는 데 의견이 모이고 있어. 바로 이 지점에서 등장하는 게 '포세이돈(@psdnai)'이야. 포세이돈은 그냥 데이터 창고가 아니라, 현실 데이터를 공급받아 검증하고 정제해서 저작권 걱정 없이 쓸 수 있는 학습용 데이터셋으로 만들어주는 인프라야. 비유하자면 포세이돈은 '석유 정제소'야. 날것의 데이터를 받아서, AI가 학습에 바로 쓸 수 있는 연료로 정제해주는 역할을 해. 이 모든 과정은 @StoryProtocol 위에서 돌아가. 누가 데이터를 제공했고, 어떤 조건으로 누가 썼는지를 온체인에 투명하게 기록하지. 데이터를 제공한 사람은 정당한 보상을 받고, AI 개발자는 안심하고 쓸 수 있는 구조야. GPU나 모델이 아니라, 데이터 레이어에서의 혁신을 이뤄낼 포세이돈은 웹3 기술을 웹2 산업에 가장 잘 적용한 사례가 될 수도 있다고 생각해.
Chris Dixon
Chris Dixon23 thg 7, 2025
Rất vui mừng thông báo rằng chúng tôi đang dẫn dắt một vòng gọi vốn hạt giống trị giá 15 triệu đô la cho Poseidon, được ươm tạo bởi @StoryProtocol và đang xây dựng một lớp dữ liệu phi tập trung để phối hợp cung và cầu cho dữ liệu đào tạo AI. Thế hệ đầu tiên của các mô hình nền tảng AI đã được đào tạo trên dữ liệu dường như là một nguồn tài nguyên vô hạn. Ngày nay, những nguồn tài nguyên dễ tiếp cận nhất như sách và trang web đã hầu như bị khai thác hết, và dữ liệu đã trở thành yếu tố hạn chế trong sự tiến bộ của AI. Nhiều dữ liệu còn lại hiện nay hoặc có chất lượng thấp hơn hoặc bị hạn chế do bảo vệ quyền sở hữu trí tuệ. Đối với một số ứng dụng AI hứa hẹn nhất — trong lĩnh vực robot, xe tự hành và trí thông minh không gian — dữ liệu thậm chí còn chưa tồn tại. Giờ đây, những hệ thống này cần những loại thông tin hoàn toàn mới: đa giác quan, phong phú trong các trường hợp biên, được thu thập trong môi trường tự nhiên. Tất cả dữ liệu từ thế giới vật lý này sẽ đến từ đâu? Thách thức không chỉ là kỹ thuật — đó là một vấn đề phối hợp. Hàng ngàn người đóng góp phải làm việc cùng nhau theo cách phân tán để tìm nguồn, gán nhãn và duy trì dữ liệu vật lý mà AI thế hệ tiếp theo cần. Chúng tôi tin rằng không có cách tiếp cận tập trung nào có thể phối hợp hiệu quả việc tạo ra và quản lý dữ liệu cần thiết ở mức độ quy mô và đa dạng yêu cầu. Một cách tiếp cận phi tập trung có thể giải quyết điều này. @psdnai cho phép các nhà cung cấp thu thập dữ liệu mà các công ty AI cần, đồng thời đảm bảo an toàn quyền sở hữu trí tuệ thông qua giấy phép IP lập trình của Story. Điều này nhằm thiết lập một nền tảng kinh tế mới cho internet, nơi các nhà sáng tạo dữ liệu được đền bù công bằng cho việc giúp các công ty AI phát triển thế hệ hệ thống thông minh tiếp theo. Đội ngũ của Poseidon, do Giám đốc Khoa học và Đồng sáng lập @SPChinchali dẫn dắt, mang đến chuyên môn sâu về cơ sở hạ tầng AI. Sandeep là giáo sư tại UT Austin chuyên về AI, robot và hệ thống phân tán, với bằng tiến sĩ từ Stanford về AI và hệ thống phân tán. Giám đốc Sản phẩm và Đồng sáng lập @sarickshah đã dành một thập kỷ làm kỹ sư học máy, mở rộng các sản phẩm AI cho các doanh nghiệp lớn trong lĩnh vực dịch vụ tài chính, viễn thông và chăm sóc sức khỏe. Chúng tôi rất vui mừng được hỗ trợ Poseidon trong công việc giải quyết một trong những nút thắt quan trọng nhất trong sự phát triển của AI.
2,48K