Guide för dig: Så här genererar du bilder gratis på din dator

CheckMag

Vill du skapa bilder på din dator utan att förlita dig på molntjänster? Den här guiden hjälper dig att konfigurera kostnadsfria verktyg med öppen källkod för fullständig kreativ kontroll utan några prenumerationer.
Rohith Bhaskar, ✓ Rohith Bhaskar (översatt av Ninh Duy) Publicerad 07/09/2025 🇺🇸 🇪🇸 ...
AI GPU Nvidia Open Source

Verktyg för bildgenerering har blivit allt bättre på att skapa fotorealistiska bilder i toppklass. Tyvärr är de flesta av dem låsta online bakom en betalvägg, men tänk om jag sa att det finns ett sätt att köra dem lokalt med mycket mer flexibilitet än vad onlineverktyg erbjuder?

Förutsättningar

1) Ett Nvidia-grafikkort med minst 8 GB VRAM. (RTX 3060 eller bättre rekommenderas )

2) Minst 16 GB DDR4 systemminne. (Ju mer du har, desto bättre )

3) Windows 10/11 (64-bitars OS behövs )

4) Minst 100-150 GB ledigt hårddiskutrymme för att ställa in allt och ladda ner modeller.

5) En internetanslutning för initial installation. (Behövs endast för att ladda ner och installera UI-frontends och bildmodeller )

Obs: AMD eller Intel GPU:er stöds inte officiellt av de flesta UI-frontends och kräver lösningar för att fungera.

Det första du behöver göra är att se till att du kör de senaste studiodrivrutinerna från Nvidia för ditt grafikkort. Om du är osäker på vilken Nvidia GPU du har installerat, högerklicka var som helst på skrivbordet och klicka på "NVIDIA Control Panel" i snabbmenyn.

En bild av högerklicksmenyn i Windows 11, med Nvidias kontrollpanel markerad. (Bildkälla: Windows Screen Capture) — Klicka på Nvidia Control Panel i snabbmenyn. (Bildkälla: Windows Screen Capture)

Leta nu efter "Systeminformation" längst ner på den sida som öppnas. Du bör se namnet på ditt grafikkort till vänster, tillsammans med mer information om det behövs.

En skärmdump av Nvidias kontrollpanel på Windows 11 med en röd markering på Systeminformation längst ner. (Bildkälla: Windows Screen Capture) — Leta efter Systeminformation längst ner. (Bildkälla: Windows Screen Capture)

En skärmdump av Nvidias GPU-flik i avsnittet Systeminformation i Nvidia Control Panel på Windows 11. (Bildkälla: Windows Screen Capture) — Leta efter namnet på din GPU till vänster. (Bildkälla: Windows Screen Capture)

Öppna upp Nvidias officiella drivrutinsarkiv härleta efter Nvidia Studio Drivers och klicka på Download. Detta kommer att öppna en sida där du kan ladda ner den senaste drivrutinen. Nu är det värt att kontrollera om din Nvidia-produkt stöds av drivrutinen. Du kan göra det genom att klicka på "Produkter som stöds" precis under nedladdningsknappen. Installera drivrutinerna och starta om din dator.

Obs: Detta kommer att skriva över Game Ready Drivers om du har dem installerade. Om ditt system i första hand är avsett för spel kan det hända att du får sämre prestanda i spel.

Jättebra! Det första steget är nu avklarat. Nu kan vi gå vidare till de roliga sakerna, som att ladda ner UI-frontends. Jag rekommenderar starkt att du laddar ner och installerar Stability Matrix. Det är ett allt-i-ett-underhållsverktyg som stöder flera UI-frontends och automatiskt håller dem uppdaterade. Det skapar till och med delade mappar för modeller och utdata som du kan visa på ett ställe.

På GitHub-sidanbläddrar du ner till readme-avsnittet och letar efter ditt operativsystem. Stability Matrix erbjuder även nedladdningar för Linux och Mac. I den här guiden kommer vi att använda Windows-versionen.

En skärmdump av Stability Matrix GitHub-sida med nedladdningsknappen Windows 10/11 markerad. (Bildkälla: Windows Screen Capture) — Klicka på Windows 10/11-knappen för att ladda ner Stability Matrix. (Bildkälla: Windows Screen Capture)

Klicka på knappen för operativsystemet så uppmanas du att ladda ner en .zip-fil. Denna ska placeras på den enhet där du vill installera Stability Matrix. Se till att du har minst 100-150 GB ledigt utrymme på hårddisken. Detta är inte bara för att installera Stability Matrix utan även för att ladda ner de modeller, textkodare och andra systemfiler som krävs. Dessa filer blir ganska snabbt stora.

När du har laddat ner filen packar du upp den och kör StabilityMatrix.exe som finns i den extraherade mappen. Det ska automatiskt ladda ner alla nödvändiga filer och ställa in gränssnittet åt dig.

Fantastiskt! Vi har nu ett gränssnitt för att ladda ner och installera flera UI-frontends.

Nu är det dags att bestämma vilken frontend du vill använda. En frontend är ett grafiskt användargränssnitt (GUI) som gör att du kan interagera med bildmodeller, manipulera inställningar och, ännu viktigare, generera bilder.

Leta efter knappen "Add Package" längst ned och klicka på den för att få upp de olika alternativen.

En skärmdump av Stability Matrix-gränssnittet i Windows 11, med en röd markering på paketknappen. (Bildkälla: Windows Screen Capture) — Klicka på ikonen Packages till vänster. (Bildkälla: Windows Screen Capture)

En skärmdump av Stability Matrix-gränssnittet i Windows 11, med en röd markering på Add Package-knappen. (Bildkälla: Windows Screen Capture) — Klicka på Lägg till paket längst ner. (Bildkälla: Windows Screen Capture)

Här är en snabb lista över de alternativ som erbjuds på Stability Matrix.

1) Stabil diffusion WebUI Forge

2) Stabil Diffusion WebUI Forge - Klassisk

3) ComfyUI (rekommenderas)

4) Foooocus

5) Fooocus - mashb1t's 1-Up Edition

6) Stable Diffusion WebUI

7) SwarmUI

8) Cogstudio

9) Stable Diffusion WebUI UX

10) RuineradFooocus

11) SD.Next

12) SDFX

13) InvokeAI

Personligen skulle jag starkt rekommendera att använda ComfyUI. Det är en visuell, nodbaserad applikation som kan verka lite skrämmande till en början men som är förvånansvärt lätt att vänja sig vid. Kom ihåg att Stability Matrix kan hantera flera frontends, så du behöver inte begränsa dig till en. Du kan experimentera och hitta den som passar dig bäst.

Använd listan ovan och navigera till GitHub-sidorna för varje paket. Ta dig tid och lär dig mer om varje paket innan du gör ett val.

I den här guiden kommer jag att leda dig genom nedladdning och installation av ComfyUI, tillsammans med några användbara tillägg som borde tjäna dig väl.

Installera och konfigurera ComfyUI

Öppna Stability Matrix och klicka på knappen "Lägg till paket". Hitta nu "ComfyUI" i listan över erbjudna paket och klicka på det. På sidan som öppnas, se till att "master" är valt i rullgardinsmenyn. "Master"-versionen är den mest stabila versionen och rekommenderas för de flesta användare.

En skärmdump av ComfyUI-hubben för installation i Stability Matrix, med en röd markering på rullgardinsmenyn för build select. (Bildkälla: Windows Screen Capture) — Se till att master är valt i rullgardinsmenyn. (Bildkälla: Windows Screen Capture)

När du klickar på Install kommer Stability Matrix att börja ladda ner paketet åt dig. Vänta bara på att det ska bli klart. Det kan ta några minuter att ladda ner, så fortsätt gärna att använda ditt system under den här tiden. Om nedladdningsrutan stängs eller om du av misstag trycker på "Dölj" kan du använda nedladdningsknappen längst ned för att visa status för din aktuella nedladdning.

Du kan kontrollera pågående nedladdningar genom att klicka på den här knappen. (Bildkälla: Windows Screen Capture)

När det har installerats bör du se ett popup-meddelande i systemfältet som informerar dig om att ComfyUI är klart att användas.

Gå tillbaka till Packages och du kommer att se ComfyUI-kaklet på sidan, men starta det inte ännu. ComfyUI är inställt på att starta i Normal VRAM-läge för GPU: er med 12 GB VRAM eller högre som standard. Om du har ett 8 GB VRAM-kort är det nu en bra tid att tvinga Comfy att starta i Low VRAM-läge.

En skärmdump av Stability Matrix paketnav med inställningarna markerade i rött på ComfyUI-kakelplattan. (Bildkälla: Windows Screen Capture) — Klicka på ikonen för inställningar. (Bildkälla: Windows Screen Capture)

Klicka på inställningskugghjulet i mitten och bläddra ner för att hitta VRAM-avsnittet. Välj "--lowvram" och tryck på Spara.

En skärmdump av inställningsmenyn i ComfyUI-kaklet på stabilitetsmatrisen med låg vram markerad. (Bildkälla: Windows Screen Capture) — Välj "--lowvram" och tryck på Spara. (Bildkälla: Windows Screen Capture)

Därefter måste vi installera ComfyUI Manager. Det är en kritisk komponent som gör att du kan installera och hantera olika anpassade noder i applikationen. Klicka på Jigsaw-ikonen till höger och skriv in "ComfyUI-Manager" i avsnittet "Tillgängliga tillägg". Välj det och klicka på Installera längst ner. När installationen är klar bör du se "(installerad)" bredvid den. Nu är vi redo att starta ComfyUI.

En skärmdump som visar pusselikonen i ComfyUI-kaklet på Stability Matrix. (Bildkälla: Windows Screen Capture) — Klicka på pusselikonen för att få upp tilläggsmenyn. (Bildkälla: Windows Screen Capture)

En skärmdump av menyn Tillgängliga tillägg för ComfyUI i Stability Matrix. (Bildkälla: Windows Screen Capture) — Välj ComfyUI-Manager och klicka på Installera. (Bildkälla: Windows Screen Capture)

Starta ComfyUI och låt det köra igenom uppstartsprocessen. När det är klart kommer det automatiskt att öppnas i en ny flik i din standardwebbläsare. Om den inte gör det, gå tillbaka till fliken Paket och klicka på WebUI på den nu grönfärgade ComfyUI-kakeln.

En skärmdump av den gröna ComfyUI-kakelplattan i Stabilitetsmatrisen med WebUI-alternativet markerat i rött. (Bildkälla: Windows Screen Capture) — Klicka på WebUI-knappen för att öppna ComfyUI:s gränssnitt i din standardwebbläsare. (Bildkälla: Windows Screen Capture)

Gratulerar, gratulerar, gratulerar! Du är nu klar med alla förkunskapskrav. Nu går vi vidare till det som är bra, att ladda ner och använda bildmodeller.

Ladda ner och använd din första bildmodell

Innan vi börjar ladda ner bildmodeller går vi igenom en ordlista med termer som du bör känna till.

1) UNET/Checkpoint/Diffusionsmodell/Diffusörer - Den stora chefen. Hjärnan i operationen, tänk på den som konstnären som målar med dina ord.

2) Tokenizer - Tidhållaren. De omvandlar dina uppmaningar till tokens för inbäddning innan Text Encoders tar över. Beroende på modell kommer du att vara begränsad till ett visst antal tokens (ord) som du kan använda.

3) Textkodare/CLIP - De som gör grovjobbet. De omvandlar dina textmeddelanden till digitala inmatningar som UNET kan förstå.

4) Samplers - Den huvudsakliga dirigenten. Styr bildgenereringsprocessen iterativt genom att förfina bilden från brus till slutresultat.

5) VAE - Rengöringsteamet. De rensar bort brus efter genereringsstadiet och hjälper till att förbättra bildkvaliteten.

Du kommer att stöta på fler termer under din resa, men det här är grunderna som kommer att definiera allt från och med nu. Oroa dig inte för mycket för att gå in i detalj på dem ännu.

En skärmdump av Workflow-menyn i ComfyUI med Browse Templates markerad. (Bildkälla: Windows Screen Capture) — Välj alternativet Browse Templates (Bläddra bland mallar). (Bildkälla: Windows Screen Capture)

Starta ComfyUI och det bör öppna ett rent arbetsflödesfönster till att börja med. Klicka på "Arbetsflöde" längst upp till vänster och sedan på "Bläddra bland mallar"

En skärmdump av Workflow-hubben i ComfyUI med Basics och Image Generation markerade. (Bildkälla: Windows Screen Capture) — Klicka på Basics och sedan på Image Generation. (Bildkälla: Windows Screen Capture)

Då öppnas ett fönster med exempel på arbetsflöden som redan har ställts in åt dig. Klicka på "Basics" och sedan på "Image Generation" Du kommer omedelbart att se ett felmeddelande på skärmen om att det saknas modeller. Det beror på att vi faktiskt inte har laddat ner någon bildmodell ännu. Låt oss gå vidare och göra det. Klicka på download.

En skärmdump av en felmeny i ComfyUI med Download-knappen markerad. (Bildkälla: Windows Screen Capture) — Ladda ner den saknade Checkpoint. (Bildkälla: Windows Screen Capture)

Medan filen laddas ner, låt oss dröja vid några skillnader mellan de olika modellerna som du kommer att se. Det vi laddar ner just nu är Stable Diffusion 1.5 basmodell. I ComfyUI:s canvas har du kanske lagt märke till tre separata anslutningar från den allra första "Load Checkpoint"-noden. En vardera för MODEL, CLIP och VAE.

En närbild av noden Load Checkpoint i ComfyUI. (Bildkälla: Windows Screen Capture) — Alla tre utgångar från Load Checkpoint är kopplade till en nod i arbetsflödet. (Bildkälla: Windows Screen Capture)

Det beror på att alla tre ingår i denna baskontrollpunkt, och du behöver inte använda separata CLIPs och VAE för just denna modell.

Nyare bildmodeller, som Flux eller HiDreamkräver att du laddar ner dem separat, så kom ihåg det. Tack och lov har de exempelmallar precis som den här, så du behöver inte oroa dig för att ställa in allt. Vi pratar om det senare. För nu, låt oss generera vår första bild.

Om du nu klickar på Run-knappen längst ner till höger kommer du att märka att ComfyUI fortfarande ger dig ett fel. Det beror på att modellen måste placeras i rätt mapp för att Comfy ska känna igen den. Gå nu till mappen där du laddade ner modellen i File Explorer och kopiera den.

Du kommer att märka att filnamnet har tillägget ".SAFETENSORS". Detta är det format som filen använder. Som en allmän regel ska du bara ladda ner filer med filnamnstillägget .safetensors. Ladda inte ner pickle tensors eller .pth. Lita på mig!

Öppna mappen där du installerade Stability Matrix och leta efter en mapp som heter "Models" Dubbelklicka på den och leta efter en undermapp som heter "StableDiffusion", klistra in .safetensors-filen i den.

För framtida referens. Modeller som innehåller CLIPS och VAE ska placeras i mappen "StableDiffusion". Modeller med endast UNET (ingen CLIP eller VAE) placeras i mappen "DiffusionModels". Textkodare (T5, Llama, CLIP L, CLIP G) måste placeras i mappen "TextEncoders". Slutligen placeras dina VAE-filer i mappen "VAE".

Som du säkert ser finns det många fler mappar än bara dessa tre. Mitt råd skulle vara att räkna ut det när du kommer till dem. Låt oss nu oroa oss för vår bild.

En närbild av rullgardinsmenyn Load Checkpoint i ComfyUI. (Bildkälla: Windows Screen Capture) — Välj "v1-5-pruned-emaonly-fp16" i rullgardinsmenyn. (Bildkälla: Windows Screen Capture)

Uppdatera ComfyUI:s webbsida i din webbläsare. Klicka på dialogrutan i noden "Load Checkpoint" och välj din nedladdade fil.

Eftersom detta är en mall är allt redan upplagt åt dig. Det är dock värt att känna till de grundläggande förutsättningarna för dina framtida arbetsflöden. Låt oss börja till vänster. Vi har redan diskuterat Load Checkpoint-noden, och bredvid den finns två "CLIP Text Encode (Prompt)"-noder.

Den översta är den positiva prompten eller det du vill se i bilden. Den nedre är input för negativa uppmaningar eller vad du inte vill se i slutresultatet. Att generera bilder är balansen mellan dessa två noder kombinerade. Du skapar en bild, kontrollerar vad du inte gillar med den och anger det i den negativa prompten. För tillfället är dessa redan inmatade åt oss, så låt oss klicka på "Kör"

ComfyUI är ett visuellt gränssnitt, vilket innebär att du faktiskt kan se processen ske nod för nod. När din text är kodad skickas den till "KSampler", som börjar iterera bilden. Låt oss snabbt gå igenom alla inställningar i den här noden.

1) Seed: Tänk på det som bildens adress. Samma positiva uppmaning + negativ uppmaning + samma inställningar + samma frö = samma bild. Användbar för att återskapa och iterera på en bild.

2) Kontroll efter generering: Bestämmer om fröet ska slumpas efter varje generation eller om det ska förbli fast.

3) Steg: Antalet steg som KSampler ska iterera för. De flesta modeller kommer med rekommenderade steg.

4) CFG: Modellens lyhördhet för din prompt. Högre värden = strikt efterlevnad av uppmaningar men mindre kreativitet. Lägre värden = mer kreativa utdata på bekostnad av att uppmaningen följs.

5) Sampler_name: Namnet på den sampler som du använder för närvarande. Klicka på rullgardinsmenyn för att få fler alternativ. Experimentera med olika inställningar och samplers för att få varierande resultat.

6) Schemaläggare: Tänk på det som den andre befälhavaren som kommer med strategier som dirigenten godkänner. Återigen, experimentera med olika samplers och schemaläggare för att hitta en som fungerar för dig.

7) Denoise: Bestämmer hur mycket brus som läggs till i början av genereringsprocessen. Detta tas bort iterativt av samplern. Värdet kan inte sättas högre än 1,00, och värden under det (0,45 eller 0,65) används främst i arbetsflöden för bild-till-bild, refiner eller inpainting.

En närbild av KSampler-noden i ComfyUI. (Bildkälla: Windows Screen Capture) — KSamplerns "latent_image"-utgång är ansluten till noden "Empty Latent Image" i arbetsflödet. (Bildkälla: Windows skärmdump)

En skärmdump av noden Empty Latent Image i ComfyUI. (Bildkälla: Windows Screen Capture) — Den tomma latenta bilden avgör storleken på din slutliga utskrift. (Bildkälla: Windows Screen Capture)

Latent_image-ingången till vänster om KSampler-noden bestämmer storleken på din bild. I arbetsflödet är den ansluten till en "Empty Latent Image"-nod med en upplösning på 512x512 och en batchstorlek (antalet bilder som genereras i en körning) på 1.

Ett exempel på en AI-genererad flaska med en galax inuti som står på ett vanligt träbord. (Bildkälla: AI-genererad) — Vår första bild med genereringsinställningarna. (Bildkälla: AI Generated)

Titta på det där! Vår allra första bild. Om du har klarat dig så här långt, grattis! Du känner nu till grunderna för att komma igång med din resa inom bildgenerering. Ju mer du experimenterar, desto mer kommer du att upptäcka, och det här kaninhålet är djupt. Så ha det så roligt.

Användbara länkar

CivitAI: Din one-stop shop för nedladdning av modeller, LoRAs, inbäddningar och mycket mer. (Varning: Innehåller NSFW-innehåll. Använd inbyggda webbplatsfilter)

Monzon Media: Fantastisk resurs för nybörjare och avancerade ComfyUI-tutorials.

ComfyUI Wiki: För alla dina felsökningsbehov.

Bad ASS ComfyUI Resurslista: Länkar till alla Base MODELs, CLIPs och VAEs du kan behöva på ett och samma ställe.

Bekväma arbetsflöden: En dedikerad community för att dela och ladda ner arbetsflöden.