Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Niezależna analiza modeli AI i dostawców usług hostingowych - wybierz najlepszego dostawcę modelu i API dla swojego przypadku użycia
IBM wprowadził Granite 4.0 - nową rodzinę modeli językowych o otwartych wagach, których rozmiar waha się od 3B do 32B. Artificial Analysis otrzymał dostęp przedpremierowy, a nasze testy pokazują, że Granite 4.0 H Small (32B/9B całkowitych/aktywnych parametrów) uzyskuje wynik 23 w Indeksie Inteligencji, z szczególną siłą w efektywności tokenów.
Dziś IBM wydał cztery nowe modele: Granite 4.0 H Small (32B/9B całkowitych/aktywnych parametrów), Granite 4.0 H Tiny (7B/1B), Granite 4.0 H Micro (3B/3B) oraz Granite 4.0 Micro (3B/3B). Oceniliśmy Granite 4.0 Small (w trybie bez rozumowania) oraz Granite 4.0 Micro, korzystając z Indeksu Inteligencji Artificial Analysis. Modele Granite 4.0 łączą niewielką ilość standardowych warstw uwagi w stylu transformera z większością warstw Mamba, które mają na celu zmniejszenie wymagań pamięciowych bez wpływu na wydajność.
Kluczowe wnioski z testów:
➤🧠 Inteligencja Granite 4.0 H Small: W trybie bez rozumowania, Granite 4.0 H Small uzyskuje 23 w Indeksie Inteligencji Artificial Analysis - wzrost o +8 punktów w porównaniu do IBM Granite 3.3 8B (bez rozumowania). Granite 4.0 H Small wyprzedza Gemma 3 27B (22), ale jest za Mistral Small 3.2 (29), EXAONE 4.0 32B (bez rozumowania, 30) oraz Qwen3 30B A3B 2507 (bez rozumowania, 37) pod względem inteligencji.
➤⚡ Inteligencja Granite 4.0 Micro: W Indeksie Inteligencji Artificial Analysis, Granite 4.0 Micro uzyskuje 16. Wyprzedza Gemma 3 4B (15) oraz LFM 2 2.6B (12).
➤⚙️ Efektywność tokenów: Granite 4.0 H Small i Micro wykazują imponującą efektywność tokenów - Granite 4.0 Small używa 5.2M, podczas gdy Granite 4.0 Micro używa 6.7M tokenów do działania Indeksu Inteligencji Artificial Analysis. Oba modele używają mniej tokenów niż Granite 3.3 8B (bez rozumowania) oraz większość innych modeli o otwartych wagach w trybie bez rozumowania, które mają mniej niż 40B całkowitych parametrów (z wyjątkiem Qwen3 0.6B, który używa 1.9M tokenów wyjściowych).
Kluczowe szczegóły modeli:
➤🌐 Dostępność: Wszystkie cztery modele są dostępne na Hugging Face. Granite 4.0 H Small jest dostępny na Replicate i kosztuje $0.06/$0.25 za 1M tokenów wejściowych/wyjściowych.
➤📏 Okno kontekstowe: 128K tokenów.
➤©️ Licencjonowanie: Modele Granite 4.0 są dostępne na licencji Apache 2.0.


35,8K
DeepSeek uruchomił V3.2 Exp z nową architekturą DeepSeek Sparse Attention (DSA), która ma na celu zredukowanie wpływu kwadratowego skalowania obliczeń w zależności od długości kontekstu.
Niezależnie przetestowaliśmy V3.2 Exp, osiągając podobny poziom inteligencji do DeepSeek V3.1 Terminus; DeepSeek przeszedł na używanie V3.2 jako głównego punktu końcowego API i obniżył ceny API o ponad 50%. Dzięki zaktualizowanej cenie API pierwszej strony DeepSeek, koszt uruchomienia Indeksu Sztucznej Analizy Inteligencji spada z 114 USD do 41 USD.
DeepSeek twierdzi, że "celowo dostosował" konfiguracje treningowe V3.1 Terminus i V3.2 Exp. Dopasowanie wydajności V3.1 Terminus wydaje się wykazywać, że korzyści wydajnościowe architektury DeepSeek Spare Attention nie wpływają negatywnie na inteligencję.
Kluczowe wnioski z benchmarków:
➤🧠 Brak zmiany w zbiorczej inteligencji: W trybie rozumowania, DeepSeek V3.2 Exp uzyskuje wynik 57 w Indeksie Sztucznej Analizy Inteligencji. Uważamy to za równoważne inteligencji DeepSeek V3.1 Terminus (Rozumowanie)
➤📈 Brak spadku w rozumowaniu długiego kontekstu: Pomimo zmian w architekturze DeepSeek, V3.2 Exp (Rozumowanie) nie wydaje się wykazywać żadnego spadku w rozumowaniu długiego kontekstu - uzyskując niewielki wzrost w AA-LCR.
➤⚡ Wydajność nierozeznawcza: W trybie nierozeznawczym, DeepSeek V3.2 Exp nie wykazuje degradacji inteligencji, dorównując DeepSeek V3.1 Terminus z wynikiem 46 w Indeksie Sztucznej Analizy Inteligencji.
➤⚙️ Efektywność tokenów: Dla DeepSeek V3.2 Exp (Rozumowanie), zużycie tokenów do uruchomienia Indeksu Sztucznej Analizy Inteligencji nieznacznie spada z 67M do 62M w porównaniu do V3.1 Terminus. Zużycie tokenów pozostaje niezmienione dla wariantu nierozeznawczego.
➤💲Ceny: DeepSeek znacznie obniżył ceny za tokeny dla swojego API pierwszej strony z 0,56 USD/1,68 USD do 0,28 USD/0,42 USD za 1M tokenów wejściowych/wyjściowych - co stanowi redukcję cen o 50% i 75% odpowiednio dla tokenów wejściowych i wyjściowych.
Inne szczegóły modelu:
➤©️ Licencjonowanie: DeepSeek V3.2 Exp jest dostępny na licencji MIT.
➤🌐 Dostępność: DeepSeek V3.2 Exp jest dostępny za pośrednictwem API DeepSeek, które zastąpiło DeepSeek V3.1 Terminus. Użytkownicy mogą nadal uzyskiwać dostęp do DeepSeek V3.1 Terminus za pośrednictwem tymczasowego API DeepSeek do 15 października.
➤📏 Rozmiar: DeepSeek V3.2 Exp ma 671B całkowitych parametrów i 37B aktywnych parametrów. To samo, co wszystkie wcześniejsze modele w serii DeepSeek V3 i R1.

41,36K
ServiceNow wydał Apriel-v1.5-15B-Thinker, model rozumowania o otwartych wagach 15B, który prowadzi naszą kategorię Małych Modeli (<40B parametrów)
💼 Przegląd: Apriel-v1.5-15B-Thinker to gęsty model rozumowania o otwartych wagach z 15 miliardami parametrów. To nie jest pierwszy model wydany przez ServiceNow, ale stanowi znaczny skok w inteligencji osiągnięty w porównaniu do wcześniejszych wydań
🧠 Inteligencja: Model uzyskuje wynik 52 w Indeksie Inteligencji Analizy Sztucznej. To stawia go na równi z DeepSeek R1 0528, który ma znacznie większą architekturę 685B parametrów. Model ServiceNow szczególnie dobrze radzi sobie w ważnych zachowaniach dla agentów przedsiębiorstw, takich jak przestrzeganie instrukcji (62% w IFBench, przed gpt-oss-20B, rozumowanie) oraz konwersacje wieloetapowe i użycie narzędzi (68% w 𝜏²-Bench Telecom, przed gpt-oss-120B, rozumowanie). To czyni go szczególnie odpowiednim do zastosowań agentowych, co prawdopodobnie było celem, biorąc pod uwagę, że ServiceNow działa w przestrzeni agentów przedsiębiorstw
⚙️ Tokeny wyjściowe i obszerność: Model produkuje dużą liczbę tokenów wyjściowych, nawet wśród modeli rozumowania - używając ~110M połączonych tokenów rozumowania i odpowiedzi do ukończenia Indeksu Inteligencji Analizy Sztucznej
🖥️ Dostęp: Żaden dostawca inferencji bezserwerowej jeszcze nie obsługuje modelu, ale jest on już dostępny na Hugging Face do lokalnej inferencji lub samodzielnego wdrożenia. Model został wydany na licencji MIT, wspierającej nieograniczone wykorzystanie komercyjne
ℹ️ Okno kontekstowe: Model ma natywne okno kontekstowe o wielkości 128k tokenów.
Gratulacje dla @ServiceNowRSRCH za ten imponujący wynik!

74,48K
Najlepsze
Ranking
Ulubione