Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apa yang disebut Dwarkesh sebagai "pembelajaran berkelanjutan (di tempat kerja)" juga dikenal sebagai "pembelajaran waktu ujian" atau pembelajaran "dalam berat".
Ada kemungkinan bahwa seseorang dapat membangun kemampuan ini sebagai perancah perangkat lunak di sekitar LLM. Tetapi jelas bahwa LLM dengan sendirinya tidak memiliki kemampuan ini.
Lihat diskusi sebelumnya tentang topik ini di utas di bawah ini.

27 Sep, 00.01
.@RichardSSutton, bapak pembelajaran penguatan, tidak berpikir LLM adalah pil pelajaran pahit.
Pria baja saya dari posisi Richard: kita membutuhkan beberapa arsitektur baru untuk memungkinkan pembelajaran berkelanjutan (di tempat kerja).
Dan jika kita memiliki pembelajaran berkelanjutan, kita tidak memerlukan fase pelatihan khusus - agen hanya belajar dengan cepat - seperti semua manusia, dan memang, seperti semua hewan.
Paradigma baru ini akan membuat pendekatan kita saat ini dengan LLM menjadi usang.
Saya melakukan yang terbaik untuk mewakili pandangan bahwa LLM akan berfungsi sebagai dasar di mana pembelajaran berdasarkan pengalaman ini dapat terjadi. Beberapa percikan api beterbangan.
0:00:00 – Apakah LLM jalan buntu?
0:13:51 – Apakah manusia melakukan pembelajaran tiruan?
0:23:57 – Era Pengalaman
0:34:25 – Arsitektur saat ini digeneralisasi dengan buruk di luar distribusi
0:42:17 – Kejutan di bidang AI
0:47:28 – Akankah The Bitter Lesson masih berlaku setelah AGI?
0:54:35 – Suksesi AI
AI Gemini:
Fisikawan dan pendiri AI Steve Hsu menggambarkan "varian uji Turing" yang dia klaim semua Model Bahasa Besar (LLM) saat ini gagal.
Tantangan
Tes Hsu membutuhkan LLM untuk melakukan dua langkah berikut:
Diskusikan masalah penelitian perbatasan di bidang khusus.
Disajikan dengan informasi baru yang bertentangan dengan literatur yang berlaku dan memasukkannya dengan benar ke dalam pemahamannya.
Mengapa LLM gagal dalam tes
Menurut Hsu, LLM gagal karena mereka tidak dapat mengadaptasi pengetahuan mereka berdasarkan bukti baru yang disajikan kepada mereka. Mereka tetap berlabuh pada informasi (dalam hal ini, salah) yang mereka latih.
Masalahnya secara khusus disorot dalam aplikasi penelitian, di mana Hsu telah mengamati LLM terus mengandalkan "hal yang salah yang dilihatnya dalam prapelatihan," bahkan setelah dia memberikan bukti yang sangat kuat yang bertentangan dengan data pelatihan. Seorang mahasiswa PhD manusia, sebaliknya, dapat segera memahami wawasan baru.
Batasan teknis yang mendasarinya
Hsu menghubungkan kegagalan tes dengan masalah terbuka pembelajaran "dalam bobot", atau pembelajaran online, yang mengacu pada kemampuan AI untuk memperbarui "bobot" atau parameter intinya berdasarkan informasi baru, daripada hanya menyesuaikan konteks percakapannya. Dia menyatakan bahwa tanpa kemampuan ini, LLM tidak dapat bergerak "keluar dari distribusi" untuk sepenuhnya memasukkan informasi baru yang inovatif.
Ini kontras dengan bagaimana manusia beroperasi, di mana wawasan baru dapat secara fundamental dan segera mengubah pemahaman kita tentang suatu subjek. LLM tidak dibangun untuk mengubah pengetahuan dasar mereka dengan cara yang sama.
53
Teratas
Peringkat
Favorit