Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Doanh nghiệp cần chú ý đến những yếu tố nào khi triển khai AI? Khác với việc người tiêu dùng sử dụng các mô hình AI lớn hoặc AI đại lý, việc triển khai AI trong doanh nghiệp yêu cầu môi trường sản xuất rất cao, tài liệu dày đặc và bối cảnh cụ thể, cần độ chính xác cao, tỷ lệ sai sót càng thấp càng tốt, thậm chí là không có sai sót. Bởi vì đây không phải là để AI viết thơ, trò chuyện, tạo hình ảnh hay giải toán, mà thực sự là để tích hợp AI vào quy trình kinh doanh thực tế của doanh nghiệp hoặc công ty, để AI hoàn thành những công việc phức tạp, rườm rà và cần độ chính xác cực cao mà con người đang làm hàng ngày. Nếu không thể xác định độ chính xác của AI, thì doanh nghiệp cũng rất khó để yên tâm triển khai AI.
Hãy xem Arena mà SentientAGI đã ra mắt, khá thú vị. Nó đưa ra những nhiệm vụ doanh nghiệp thực sự khó khăn (hoặc mô phỏng cao) cho các AI đại lý, thông qua các tiêu chí chấm điểm nghiêm ngặt (như độ chính xác, tính toàn vẹn của bằng chứng, tỷ lệ ảo giác, độ chính xác của trích dẫn, thời gian hoàn thành, v.v.), sau đó ghi lại một cách hệ thống các mô hình thất bại (chẳng hạn như "bịa đặt dữ liệu", "trích dẫn nguồn sai", "nhảy bước suy luận", "bỏ sót điều khoản quan trọng"), cuối cùng liên tục lặp lại, so sánh công khai để các nhà phát triển thấy được khoảng cách và cải thiện.
Nói ngắn gọn, Arena không đo "AI thông minh hay không", mà đo khả năng hiểu chính xác ý định và thực hiện nhiệm vụ, thực chất là đo xem AI này có thể thực sự làm việc tại các công ty lớn hay không, đặc biệt là những công việc khó tự động hóa nhất và dễ xảy ra sự cố nhất.
Từ góc độ này, Arena là một nền tảng thi đấu, nơi các nhà phát triển đưa AI đại lý vào các nhiệm vụ tiêu chuẩn hóa và so sánh kết quả dưới các điều kiện thử nghiệm nhất quán. Điều này giống như một "giải đấu AI đại lý", nơi các AI đại lý cạnh tranh công bằng theo cùng một bộ quy tắc trên cùng một sàn đấu. Sau đó, nền tảng có thể theo dõi các loại lỗi, chẳng hạn như ảo giác, thiếu bằng chứng, trích dẫn không chính xác và khoảng cách suy luận, giúp các nhà phát triển chẩn đoán các vấn đề lặp đi lặp lại.
Có vẻ như Sentient hy vọng thông qua cách này, sẽ thúc đẩy cộng đồng mã nguồn mở làm cho độ tin cậy của AI đại lý, suy luận chuỗi dài, khả năng kiểm toán có thể được đưa vào môi trường sản xuất thực tế mà doanh nghiệp dám sử dụng, thay vì chỉ dừng lại ở giai đoạn demo và bảng xếp hạng. Đây mới thực sự là điều có thể giúp thúc đẩy AI đạt được SOTA (state-of-the-art, mức độ tiên tiến nhất) trong các nhiệm vụ suy luận cấp doanh nghiệp trong thế giới thực.
Từ góc độ này cũng có thể hiểu được lý do tại sao các tổ chức lớn trong lĩnh vực đầu tư tài chính như Franklin Templeton, Founders Fund, Pantera, OpenRouter, v.v. lại sẵn sàng tham gia hợp tác, vì họ cũng rất quan tâm đến điều này, các tổ chức và doanh nghiệp thực sự quan tâm đến việc có dám đưa AI vào quy trình quyết định kinh doanh thực tế của mình hay không.
Vẫn rất mong chờ sự tiến triển tiếp theo của nền tảng Arena, đây cũng nên là một phần rất quan trọng trong lộ trình "AGI mở" mà Sentient muốn thúc đẩy.
Hàng đầu
Thứ hạng
Yêu thích
