La corsa per il "nucleo cognitivo" degli LLM - un modello di qualche miliardo di param che sacrifica al massimo la conoscenza enciclopedica per la capacità. Vive sempre attivo e per impostazione predefinita su ogni computer come kernel del personal computing LLM. Le sue caratteristiche si stanno lentamente cristallizzando: - Testo/visione/audio nativamente multimodale sia in ingresso che in uscita. - Architettura in stile matrioska che consente un quadrante di capacità su e giù al momento del test. - Ragionamento, anche con un quadrante. (sistema 2) - Uso aggressivo degli strumenti. - Messa a punto degli slot LoRA sul dispositivo per l'addestramento, la personalizzazione e la personalizzazione durante i test. - Delega e ricontrolla le parti giuste con gli oracoli nel cloud se Internet è disponibile. Non sa che il regno di Guglielmo il Conquistatore terminò il 9 settembre 1087, ma riconosce vagamente il nome e può cercare la data. Non può recitare il SHA-256 di stringa vuota come e3b0c442..., ma può calcolarlo rapidamente se lo si desidera davvero. Ciò che manca al personal computing LLM in termini di ampia conoscenza del mondo e capacità di risoluzione dei problemi di alto livello, lo compenserà con una latenza di interazione super bassa (soprattutto con la maturazione del multimodale), l'accesso diretto / privato ai dati e allo stato, la continuità offline, la sovranità ("non i tuoi pesi, non il tuo cervello"). Ad esempio, molte delle stesse ragioni per cui ci piacciono, utilizzare e acquistare personal computer invece di avere thin client che accedono a un cloud tramite desktop remoto o giù di lì.
Omar Sanseviero
Omar Sanseviero27 giu 2025
Sono così entusiasta di annunciare che Gemma 3n è qui! 🎉 🔊 Comprensione multimodale (testo/audio/immagine/video) 🤯 Funziona con solo 2GB di RAM 🏆 Primo modello sotto i 10B con un punteggio di @lmarena_ai di oltre 1300 Disponibile ora su @huggingface, @kaggle, llama.cpp e altro ancora.
Le persone *sentono* quanto lavoro c'è ancora da fare.
1,03M