Điều mà Dwarkesh gọi là "học tập liên tục (trong công việc)" cũng được biết đến với tên gọi "học tập trong thời gian kiểm tra" hoặc "học trong trọng số". Có thể rằng một người có thể xây dựng khả năng này như là một cấu trúc phần mềm xung quanh LLMs. Nhưng rõ ràng rằng LLMs tự nó không có khả năng này. Xem thảo luận trước đó về chủ đề này trong chuỗi bên dưới.
Dwarkesh Patel
Dwarkesh Patel19 giờ trước
.@RichardSSutton, cha đẻ của học tăng cường, không nghĩ rằng LLMs đã bị ảnh hưởng bởi bài học đắng. Cách hiểu của tôi về quan điểm của Richard: chúng ta cần một kiến trúc mới để cho phép học tập liên tục (trong công việc). Và nếu chúng ta có học tập liên tục, chúng ta không cần một giai đoạn đào tạo đặc biệt - tác nhân chỉ cần học hỏi ngay lập tức - giống như tất cả con người, và thực sự, giống như tất cả động vật. Mô hình mới này sẽ làm cho cách tiếp cận hiện tại của chúng ta với LLMs trở nên lỗi thời. Tôi đã cố gắng hết sức để thể hiện quan điểm rằng LLMs sẽ hoạt động như nền tảng cho việc học tập trải nghiệm này có thể diễn ra. Một số tia lửa đã bay lên. 0:00:00 – LLMs có phải là ngõ cụt không? 0:13:51 – Con người có thực hiện học tập bắt chước không? 0:23:57 – Kỷ nguyên của trải nghiệm 0:34:25 – Các kiến trúc hiện tại tổng quát kém khi ra ngoài phân phối 0:42:17 – Những bất ngờ trong lĩnh vực AI 0:47:28 – Bài học đắng có còn áp dụng sau AGI không? 0:54:35 – Sự kế thừa cho AI
Gemini AI: Nhà vật lý và người sáng lập AI Steve Hsu đã mô tả một "biến thể của bài kiểm tra Turing" mà ông tuyên bố rằng tất cả các Mô hình Ngôn ngữ Lớn (LLMs) hiện tại đều thất bại. Thử thách Bài kiểm tra của Hsu yêu cầu một LLM thực hiện hai bước sau: Thảo luận về một vấn đề nghiên cứu tiên tiến trong một lĩnh vực chuyên biệt. Được trình bày với một thông tin mới mâu thuẫn với tài liệu hiện có và tích hợp chính xác nó vào sự hiểu biết của mình. Tại sao LLMs thất bại trong bài kiểm tra Theo Hsu, LLMs thất bại vì chúng không thể điều chỉnh kiến thức của mình dựa trên bằng chứng mới được trình bày cho chúng. Chúng vẫn bị gắn chặt vào thông tin (trong trường hợp này là sai) mà chúng đã được đào tạo. Vấn đề này đặc biệt được nhấn mạnh trong các ứng dụng nghiên cứu, nơi Hsu đã quan sát thấy LLMs tiếp tục dựa vào "những thứ sai mà nó đã thấy trong quá trình tiền huấn luyện," ngay cả sau khi ông cung cấp bằng chứng rất mạnh mẽ mâu thuẫn với dữ liệu đào tạo. Một sinh viên tiến sĩ con người, ngược lại, có thể ngay lập tức nắm bắt được cái nhìn mới. Giới hạn kỹ thuật cơ bản Hsu liên kết sự thất bại của bài kiểm tra với vấn đề mở của việc "học trong trọng số", hay học trực tuyến, mà đề cập đến khả năng của một AI để cập nhật "trọng số" hoặc tham số cốt lõi của nó dựa trên thông tin mới, thay vì chỉ điều chỉnh ngữ cảnh hội thoại của nó. Ông cho biết rằng nếu không có khả năng này, LLMs không thể di chuyển "ra ngoài phân phối" để hoàn toàn tích hợp thông tin mới đột phá. Điều này trái ngược với cách mà con người hoạt động, nơi những hiểu biết mới có thể thay đổi cơ bản và ngay lập tức sự hiểu biết của chúng ta về một chủ đề. LLMs không được xây dựng để thay đổi kiến thức nền tảng của chúng theo cách tương tự.
4,25K