A corrida pelo LLM "núcleo cognitivo" - um modelo de alguns bilhões que sacrifica ao máximo o conhecimento enciclopédico pela capacidade. Ele vive sempre ligado e por padrão em todos os computadores como o kernel da computação pessoal LLM. As suas características cristalizam-se lentamente: - Texto/visão/áudio nativamente multimodal tanto na entrada como na saída. - Arquitetura estilo Matryoshka permitindo um mostrador de capacidade para cima e para baixo no momento do teste. - Raciocínio, também com um mostrador (sistema 2) - Uso agressivo de ferramentas. - Ajuste fino no dispositivo de slots LoRA para treinamento em tempo de teste, personalização e personalização. - Delega e verifica as partes certas com os oráculos na nuvem se a internet estiver disponível. Não sabe que o reinado de Guilherme, o Conquistador terminou em 9 de setembro de 1087, mas reconhece vagamente o nome e pode procurar a data. Ele não pode recitar o SHA-256 de string vazia como e3b0c442..., mas pode calculá-lo rapidamente se você realmente quiser. O que a computação pessoal LLM carece em amplo conhecimento mundial e capacidade de resolução de problemas de primeira linha irá compor em latência de interação super baixa (especialmente à medida que o multimodal amadurece), acesso direto / privado a dados e estado, continuidade offline, soberania ("não seus pesos não seu cérebro"). ou seja, muitas das mesmas razões pelas quais gostamos, usamos e compramos computadores pessoais em vez de ter thin clients a aceder a uma nuvem através de ambiente de trabalho remoto ou algo assim.
Omar Sanseviero
Omar Sanseviero27/06/2025
Estou tão entusiasmado para anunciar que o Gemma 3n está aqui! 🎉 🔊 Compreensão multimodal (texto/áudio/imagem/vídeo) 🤯 Funciona com apenas 2GB de RAM 🏆 Primeiro modelo abaixo de 10B com pontuação de @lmarena_ai de 1300+ Disponível agora em @huggingface, @kaggle, llama.cpp, e muito mais.
Será que as pessoas *sentem* quanto trabalho ainda há para fazer?
1,03M