Wyścig o "rdzeń poznawczy" LLM - model kilku miliardów parametrów, który maksymalnie poświęca wiedzę encyklopedyczną na rzecz możliwości. Żyje zawsze i domyślnie na każdym komputerze jako jądro komputerów osobistych LLM. Jego cechy powoli się krystalizują: - Natywnie multimodalny tekst/wizja/dźwięk zarówno na wejściu, jak i na wyjściu. - Architektura w stylu matrioszki pozwalająca na zwiększanie i zmniejszanie możliwości w czasie testu. - Rozumowanie, również za pomocą tarczy. (system 2) - Agresywne korzystanie z narzędzi. - Wbudowane w urządzenie dostrajanie gniazd LoRA do trenowania, personalizacji i dostosowywania w czasie testów. - Deleguje i dwukrotnie sprawdza właściwe części za pomocą wyroczni w chmurze, jeśli internet jest dostępny. Nie wie, że panowanie Wilhelma Zdobywcy zakończyło się 9 września 1087 roku, ale niejasno rozpoznaje to imię i może sprawdzić datę. Nie może wyrecytować SHA-256 pustego ciągu jako e3b0c442..., ale może go szybko obliczyć, jeśli naprawdę tego chcesz. To, czego brakuje komputerom osobistym LLM w szerokiej wiedzy o świecie i możliwościach rozwiązywania problemów na najwyższym poziomie, nadrobi bardzo niskimi opóźnieniami interakcji (zwłaszcza w miarę dojrzewania multimodalnego), bezpośrednim / prywatnym dostępem do danych i stanu, ciągłością offline, suwerennością ("nie twoja waga, nie twój mózg"). tj. wiele z tych samych powodów, dla których lubimy, używamy i kupujemy komputery osobiste, zamiast mieć cienkich klientów uzyskujących dostęp do chmury za pośrednictwem zdalnego pulpitu lub coś w tym rodzaju.
Omar Sanseviero
Omar Sanseviero27 cze 2025
Jestem bardzo podekscytowany, aby ogłosić, że Gemma 3n jest już tutaj! 🎉 🔊 Zrozumienie multimodalne (tekst/audio/obraz/wideo) 🤯 Działa przy zaledwie 2 GB RAM 🏆 Pierwszy model poniżej 10B z wynikiem @lmarena_ai wynoszącym 1300+ Dostępny teraz na @huggingface, @kaggle, llama.cpp i innych.
Czy ludzie *czują*, ile pracy jest jeszcze do wykonania. Jak wow.
1,03M