Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To, co Dwarkesh nazywa "ciągłym (w trakcie pracy) uczeniem się", znane jest również jako "uczenie się w czasie testu" lub "uczenie się w wagach".
Możliwe, że można zbudować tę zdolność jako oprogramowanie wspierające wokół LLM-ów. Ale jest jasne, że same LLM-y nie mają tej zdolności.
Zobacz wcześniejszą dyskusję na ten temat w wątku poniżej.

7 godz. temu
.@RichardSSutton, ojciec uczenia przez wzmocnienie, nie sądzi, że LLM-y są napakowane gorzką lekcją.
Mój mocny argument za stanowiskiem Richarda: potrzebujemy nowej architektury, aby umożliwić ciągłe (w trakcie pracy) uczenie się.
A jeśli mamy ciągłe uczenie się, nie potrzebujemy specjalnej fazy treningowej - agent uczy się na bieżąco - jak wszyscy ludzie, a w rzeczy samej, jak wszystkie zwierzęta.
Ten nowy paradygmat sprawi, że nasze obecne podejście do LLM-ów stanie się przestarzałe.
Starałem się jak najlepiej przedstawić pogląd, że LLM-y będą funkcjonować jako fundament, na którym może zachodzić to doświadczeniowe uczenie się. Niektóre iskry poleciały.
0:00:00 – Czy LLM-y to ślepy zaułek?
0:13:51 – Czy ludzie uczą się przez naśladowanie?
0:23:57 – Era doświadczenia
0:34:25 – Obecne architektury słabo generalizują poza dystrybucję
0:42:17 – Niespodzianki w dziedzinie AI
0:47:28 – Czy gorzka lekcja nadal będzie miała zastosowanie po AGI?
0:54:35 – Sukcesja do AI
Gemini AI:
Fizyk i założyciel AI Steve Hsu opisał "wariant testu Turinga", który jego zdaniem wszystkie obecne Duże Modele Językowe (LLM) oblewają.
Wyzwanie
Test Hsu wymaga, aby LLM wykonał następujące dwa kroki:
Omówić problem badawczy na granicy w wyspecjalizowanej dziedzinie.
Zostać zaprezentowanym z nowym kawałkiem informacji, który stoi w sprzeczności z panującą literaturą i poprawnie włączyć go do swojego rozumienia.
Dlaczego LLM oblewają test
Według Hsu, LLM oblewają, ponieważ nie mogą dostosować swojej wiedzy na podstawie nowych dowodów, które im przedstawiono. Pozostają przywiązane do (w tym przypadku błędnych) informacji, na których były trenowane.
Problem ten jest szczególnie podkreślany w zastosowaniach badawczych, gdzie Hsu zaobserwował, że LLM nadal polegają na "błędnych rzeczach, które widziały w pretreningu", nawet po tym, jak dostarcza bardzo mocnych dowodów sprzecznych z danymi treningowymi. Z kolei ludzki student doktorancki może natychmiast zrozumieć nowy wgląd.
Podstawowe ograniczenie techniczne
Hsu łączy porażkę testu z otwartym problemem "uczenia się wagi", czyli uczenia się online, które odnosi się do zdolności AI do aktualizacji swoich podstawowych "wag" lub parametrów na podstawie nowych informacji, a nie tylko do dostosowywania swojego kontekstu konwersacyjnego. Twierdzi, że bez tej zdolności LLM nie mogą wyjść "poza rozkład", aby w pełni włączyć przełomowe nowe informacje.
To kontrastuje z tym, jak działają ludzie, gdzie nowe wglądy mogą fundamentalnie i natychmiast zmienić nasze rozumienie danego tematu. LLM nie są zaprojektowane do zmiany swojej podstawowej wiedzy w ten sam sposób.
2,77K
Najlepsze
Ranking
Ulubione