La corsa per il "nucleo cognitivo" degli LLM - un modello di qualche miliardo di param che sacrifica al massimo la conoscenza enciclopedica per la capacità. Vive sempre attivo e per impostazione predefinita su ogni computer come kernel del personal computing LLM. Le sue caratteristiche si stanno lentamente cristallizzando: - Testo/visione/audio nativamente multimodale sia in ingresso che in uscita. - Architettura in stile matrioska che consente un quadrante di capacità su e giù al momento del test. - Ragionamento, anche con un quadrante. (sistema 2) - Uso aggressivo degli strumenti. - Messa a punto degli slot LoRA sul dispositivo per l'addestramento, la personalizzazione e la personalizzazione durante i test. - Delega e ricontrolla le parti giuste con gli oracoli nel cloud se Internet è disponibile. Non sa che il regno di Guglielmo il Conquistatore terminò il 9 settembre 1087, ma riconosce vagamente il nome e può cercare la data. Non può recitare il SHA-256 di stringa vuota come e3b0c442..., ma può calcolarlo rapidamente se lo si desidera davvero. Ciò che manca al personal computing LLM in termini di ampia conoscenza del mondo e capacità di risoluzione dei problemi di alto livello, lo compenserà con una latenza di interazione super bassa (soprattutto con la maturazione del multimodale), l'accesso diretto / privato ai dati e allo stato, la continuità offline, la sovranità ("non i tuoi pesi, non il tuo cervello"). Ad esempio, molte delle stesse ragioni per cui ci piacciono, utilizzare e acquistare personal computer invece di avere thin client che accedono a un cloud tramite desktop remoto o giù di lì.
Omar Sanseviero
Omar Sanseviero27 giu 2025
I’m so excited to announce Gemma 3n is here! 🎉 🔊Multimodal (text/audio/image/video) understanding 🤯Runs with as little as 2GB of RAM 🏆First model under 10B with @lmarena_ai score of 1300+ Available now on @huggingface, @kaggle, llama.cpp, , and more
Le persone *sentono* quanto lavoro c'è ancora da fare.
1,03M