Gemma 4 på Hugging Face: Googles påsköverraskning för nedladdning

Gemma-4

Google släpper Gemma 4: Den nya modellfamiljen (E2B till 31B) ger resonemangsförmåga och multimodalitet direkt till bärbara datorer och smartphones. Med ett stort kontextfönster på upp till 256 000 tokens och Apache 2.0-licens är Google ett föredöme för gratis lokal AI.

Marc Herter (översatt av DeepL / Ninh Duy), Publicerad 04/03/2026 🇺🇸 🇩🇪 ...

Strax före påsk släppte Google en stor överraskning på Hugging Face: den efterlängtade Gemma 4 är nu tillgänglig för nedladdning. Lanseringen har fyra primära storleksklasser: E2B, E4B, 26B A4B och 31B. Alla modeller har ett integrerat "Thinking"-läge som gör det möjligt för dem att bearbeta komplexa problem steg för steg innan de levererar ett slutligt svar. Spänningen kring lanseringen är uppenbar, eftersom Gemma 4 blev lokalt användbar i verktyg som LM Studio och Unsloth inom några timmar efter lanseringen.

Enligt Googleprioriterar den här nya generationen effektivitet framför rå storlek. En påtaglig förbättring jämfört med den tidigare Gemma 3-iterationen är att de minsta modellerna i den nuvarande serien redan matchar prestandanivåerna för den största Gemma 3-modellen i olika benchmarks. I praktiken innebär detta att uppgifter som tidigare krävde avancerad hårdvara nu kan utföras lokalt på en smartphone.

Arkitekturen varierar beroende på det avsedda användningsfallet. Medan 31B-varianten använder en relativt klassisk struktur, använder 26B-A4B-modellen en MoE-strategi (Mixture-of-Experts). Under inferensen - själva beräkningsprocessen - aktiveras endast cirka fyra miljarder parametrar, trots att modellen har totalt 26 miljarder parametrar. Detta garanterar hög hastighet och måttlig resursförbrukning utan att göra avkall på kunskapsdjupet. De mindre E2B- och E4B-modellerna använder Per-Layer Embeddings (PLE), som ger specialiserad information för varje token i varje lager av modellen, vilket optimerar prestanda specifikt för mobila processorer.

Det har också gjorts betydande framsteg när det gäller kontextfönstret - den mängd data som modellen kan hålla "i minnet" samtidigt. Modellerna E2B och E4B har stöd för 128.000 tokens, medan de större varianterna (26B A4B och 31B) kan hantera upp till 256.000 tokens. Denna kapacitet gör det möjligt för användarna att analysera massiva dokument eller komplexa kodstrukturer i ett enda pass.

Multimodalitet är djupt integrerat i Gemma 4, vilket gör att användarna kan blanda text och bilder sömlöst i en enda prompt. Modellerna klarar av objektigenkänning, läsning av PDF-dokument och OCR (Optical Character Recognition). Edge-modellerna (E2B och E4B) inkluderar dessutom inbyggd bearbetning av video- och ljudformat, vilket möjliggör funktioner som automatisk taligenkänning.

En annan kraftfull funktion är inbyggt stöd för "Function Calling" Detta gör det möjligt för AI att fungera som en virtuell assistent, som självständigt utför programkommandon eller använder externa verktyg för att slutföra uppgifter. Ett tydligt exempel på denna trend är verktyget "OpenClaw" som för närvarande är populärt i Kina och som bygger på denna princip för AI-agenter. Med Gemma 4 blir det betydligt enklare att distribuera sådana system helt och hållet på den egna enheten.

Det juridiska ramverket är också en välkommen förändring: modellerna släpps under Apache 2.0-licensen. Det innebär att de inte bara är fria att använda utan också kan integreras i egna projekt och användas kommersiellt, vilket drastiskt sänker tröskeln för utvecklare. Tidigare släpptes alla Gemma-modeller under en anpassad licens som författats av Google.

De första praktiska testerna understryker den imponerande språkliga kapaciteten och den ökade effektiviteten hos dessa modeller. Användning av LM Studio på en Bosgame M5uppnådde vi en svarshastighet på drygt 10 tokens per sekund (tok/s) med modellen Gemma 4 31B - snabbare än den genomsnittliga läsaren kan bearbeta information. De mindre modellerna är ännu smidigare: E4B- och 26B A4B-varianterna överstiger lätt 40 tok/s, och den minsta modellen når 60 tok/s. De som vill utnyttja hela kontextstorleken i den största Gemma 4-modellen kan dock tycka att till och med 128 GB RAM (som i Bosgame M5) är för lite; AI kan ta över 80 GB i anspråk för sig själv, vilket gör att det inte finns mycket minne tillgängligt för andra uppgifter.