La carrera por el "núcleo cognitivo" de LLM: un modelo de unos pocos miles de millones de parámetros que sacrifica al máximo el conocimiento enciclopédico por la capacidad. Vive siempre activo y de forma predeterminada en todas las computadoras como el núcleo de la computación personal LLM. Sus características se están cristalizando lentamente: - Texto/visión/audio multimodal nativo tanto en la entrada como en la salida. - Arquitectura estilo Matryoshka que permite un dial de capacidad hacia arriba y hacia abajo en el momento de la prueba. - Razonamiento, también con dial. (sistema 2) - Uso agresivo de herramientas. - Ranuras LoRA de ajuste fino en el dispositivo para entrenamiento, personalización y personalización en tiempo de prueba. - Delega y verifica las partes correctas con los oráculos en la nube si hay Internet disponible. No sabe que el reinado de Guillermo el Conquistador terminó el 9 de septiembre de 1087, pero reconoce vagamente el nombre y puede buscar la fecha. No puede recitar el SHA-256 de la cadena vacía como e3b0c442..., pero puede calcularlo rápidamente si realmente lo desea. Lo que le falta a la computación personal de LLM en un amplio conocimiento mundial y capacidad de resolución de problemas de primer nivel, lo compensará con una latencia de interacción súper baja (especialmente a medida que madura el multimodal), acceso directo / privado a los datos y el estado, continuidad fuera de línea, soberanía ("no tus pesos, no tu cerebro"). es decir, muchas de las mismas razones por las que nos gustan, usamos y compramos computadoras personales en lugar de que los clientes ligeros accedan a una nube a través de un escritorio remoto o algo así.
Omar Sanseviero
Omar Sanseviero27 jun 2025
I’m so excited to announce Gemma 3n is here! 🎉 🔊Multimodal (text/audio/image/video) understanding 🤯Runs with as little as 2GB of RAM 🏆First model under 10B with @lmarena_ai score of 1300+ Available now on @huggingface, @kaggle, llama.cpp, , and more
¿La gente *siente* cuánto trabajo queda por hacer? Como wow.
1.03M