
Guide för dig: Så här genererar du bilder gratis på din dator
CheckMag
Vill du skapa bilder på din dator utan att förlita dig på molntjänster? Den här guiden hjälper dig att konfigurera kostnadsfria verktyg med öppen källkod för fullständig kreativ kontroll utan några prenumerationer.Rohith Bhaskar, ✓ Rohith Bhaskar (översatt av Ninh Duy) Publicerad 🇺🇸 🇵🇱 ...
Verktyg för bildgenerering har blivit allt bättre på att skapa fotorealistiska bilder i toppklass. Tyvärr är de flesta av dem låsta online bakom en betalvägg, men tänk om jag sa att det finns ett sätt att köra dem lokalt med mycket mer flexibilitet än vad onlineverktyg erbjuder?
Förutsättningar
1) Ett Nvidia-grafikkort med minst 8 GB VRAM. (RTX 3060 eller bättre rekommenderas )
2) Minst 16 GB DDR4 systemminne. (Ju mer du har, desto bättre )
3) Windows 10/11 (64-bitars OS behövs )
4) Minst 100-150 GB ledigt hårddiskutrymme för att ställa in allt och ladda ner modeller.
5) En internetanslutning för initial installation. (Behövs endast för att ladda ner och installera UI-frontends och bildmodeller )
Obs: AMD eller Intel GPU:er stöds inte officiellt av de flesta UI-frontends och kräver lösningar för att fungera.
Det första du behöver göra är att se till att du kör de senaste studiodrivrutinerna från Nvidia för ditt grafikkort. Om du är osäker på vilken Nvidia GPU du har installerat, högerklicka var som helst på skrivbordet och klicka på "NVIDIA Control Panel" i snabbmenyn.
Topp 10...
» Topp 10: Bästa bärbara allround/multimediadatorerna
» Topp 10: Bästa bärbara speldatorerna
» Topp 10: Bärbara budget/kontorsdatorer
» Topp 10: Bästa bärbara kontors/premiumdatorerna
» Topp 10: Bärbara arbetsstationer
» Topp 10: De bästa små/kompakta bärbara datorerna
» Topp 10: Bästa ultrabooks
» Topp 10: Bästa hybriddatorerna
» Topp 10: Bästa surfplattorna
» Topp 10: Marknadens bästa smartphones
Leta nu efter "Systeminformation" längst ner på den sida som öppnas. Du bör se namnet på ditt grafikkort till vänster, tillsammans med mer information om det behövs.
Öppna upp Nvidias officiella drivrutinsarkiv härleta efter Nvidia Studio Drivers och klicka på Download. Detta kommer att öppna en sida där du kan ladda ner den senaste drivrutinen. Nu är det värt att kontrollera om din Nvidia-produkt stöds av drivrutinen. Du kan göra det genom att klicka på "Produkter som stöds" precis under nedladdningsknappen. Installera drivrutinerna och starta om din dator.
Obs: Detta kommer att skriva över Game Ready Drivers om du har dem installerade. Om ditt system i första hand är avsett för spel kan det hända att du får sämre prestanda i spel.
Jättebra! Det första steget är nu avklarat. Nu kan vi gå vidare till de roliga sakerna, som att ladda ner UI-frontends. Jag rekommenderar starkt att du laddar ner och installerar Stability Matrix. Det är ett allt-i-ett-underhållsverktyg som stöder flera UI-frontends och automatiskt håller dem uppdaterade. Det skapar till och med delade mappar för modeller och utdata som du kan visa på ett ställe.
På GitHub-sidanbläddrar du ner till readme-avsnittet och letar efter ditt operativsystem. Stability Matrix erbjuder även nedladdningar för Linux och Mac. I den här guiden kommer vi att använda Windows-versionen.
Klicka på knappen för operativsystemet så uppmanas du att ladda ner en .zip-fil. Denna ska placeras på den enhet där du vill installera Stability Matrix. Se till att du har minst 100-150 GB ledigt utrymme på hårddisken. Detta är inte bara för att installera Stability Matrix utan även för att ladda ner de modeller, textkodare och andra systemfiler som krävs. Dessa filer blir ganska snabbt stora.
När du har laddat ner filen packar du upp den och kör StabilityMatrix.exe som finns i den extraherade mappen. Det ska automatiskt ladda ner alla nödvändiga filer och ställa in gränssnittet åt dig.
Fantastiskt! Vi har nu ett gränssnitt för att ladda ner och installera flera UI-frontends.
Nu är det dags att bestämma vilken frontend du vill använda. En frontend är ett grafiskt användargränssnitt (GUI) som gör att du kan interagera med bildmodeller, manipulera inställningar och, ännu viktigare, generera bilder.
Här är en snabb lista över de alternativ som erbjuds på Stability Matrix.
1) Stabil diffusion WebUI Forge
2) Stabil Diffusion WebUI Forge - Klassisk
4) Foooocus
5) Fooocus - mashb1t's 1-Up Edition
7) SwarmUI
8) Cogstudio
10) RuineradFooocus
11) SD.Next
12) SDFX
13) InvokeAI
Personligen skulle jag starkt rekommendera att använda ComfyUI. Det är en visuell, nodbaserad applikation som kan verka lite skrämmande till en början men som är förvånansvärt lätt att vänja sig vid. Kom ihåg att Stability Matrix kan hantera flera frontends, så du behöver inte begränsa dig till en. Du kan experimentera och hitta den som passar dig bäst.
Använd listan ovan och navigera till GitHub-sidorna för varje paket. Ta dig tid och lär dig mer om varje paket innan du gör ett val.
I den här guiden kommer jag att leda dig genom nedladdning och installation av ComfyUI, tillsammans med några användbara tillägg som borde tjäna dig väl.
Installera och konfigurera ComfyUI
Öppna Stability Matrix och klicka på knappen "Lägg till paket". Hitta nu "ComfyUI" i listan över erbjudna paket och klicka på det. På sidan som öppnas, se till att "master" är valt i rullgardinsmenyn. "Master"-versionen är den mest stabila versionen och rekommenderas för de flesta användare.
När du klickar på Install kommer Stability Matrix att börja ladda ner paketet åt dig. Vänta bara på att det ska bli klart. Det kan ta några minuter att ladda ner, så fortsätt gärna att använda ditt system under den här tiden. Om nedladdningsrutan stängs eller om du av misstag trycker på "Dölj" kan du använda nedladdningsknappen längst ned för att visa status för din aktuella nedladdning.
När det har installerats bör du se ett popup-meddelande i systemfältet som informerar dig om att ComfyUI är klart att användas.
Gå tillbaka till Packages och du kommer att se ComfyUI-kaklet på sidan, men starta det inte ännu. ComfyUI är inställt på att starta i Normal VRAM-läge för GPU: er med 12 GB VRAM eller högre som standard. Om du har ett 8 GB VRAM-kort är det nu en bra tid att tvinga Comfy att starta i Low VRAM-läge.
Därefter måste vi installera ComfyUI Manager. Det är en kritisk komponent som gör att du kan installera och hantera olika anpassade noder i applikationen. Klicka på Jigsaw-ikonen till höger och skriv in "ComfyUI-Manager" i avsnittet "Tillgängliga tillägg". Välj det och klicka på Installera längst ner. När installationen är klar bör du se "(installerad)" bredvid den. Nu är vi redo att starta ComfyUI.
Starta ComfyUI och låt det köra igenom uppstartsprocessen. När det är klart kommer det automatiskt att öppnas i en ny flik i din standardwebbläsare. Om den inte gör det, gå tillbaka till fliken Paket och klicka på WebUI på den nu grönfärgade ComfyUI-kakeln.
Gratulerar, gratulerar, gratulerar! Du är nu klar med alla förkunskapskrav. Nu går vi vidare till det som är bra, att ladda ner och använda bildmodeller.
Ladda ner och använd din första bildmodell
Innan vi börjar ladda ner bildmodeller går vi igenom en ordlista med termer som du bör känna till.
1) UNET/Checkpoint/Diffusionsmodell/Diffusörer - Den stora chefen. Hjärnan i operationen, tänk på den som konstnären som målar med dina ord.
2) Tokenizer - Tidhållaren. De omvandlar dina uppmaningar till tokens för inbäddning innan Text Encoders tar över. Beroende på modell kommer du att vara begränsad till ett visst antal tokens (ord) som du kan använda.
3) Textkodare/CLIP - De som gör grovjobbet. De omvandlar dina textmeddelanden till digitala inmatningar som UNET kan förstå.
4) Samplers - Den huvudsakliga dirigenten. Styr bildgenereringsprocessen iterativt genom att förfina bilden från brus till slutresultat.
5) VAE - Rengöringsteamet. De rensar bort brus efter genereringsstadiet och hjälper till att förbättra bildkvaliteten.
Du kommer att stöta på fler termer under din resa, men det här är grunderna som kommer att definiera allt från och med nu. Oroa dig inte för mycket för att gå in i detalj på dem ännu.
Då öppnas ett fönster med exempel på arbetsflöden som redan har ställts in åt dig. Klicka på "Basics" och sedan på "Image Generation" Du kommer omedelbart att se ett felmeddelande på skärmen om att det saknas modeller. Det beror på att vi faktiskt inte har laddat ner någon bildmodell ännu. Låt oss gå vidare och göra det. Klicka på download.
Medan filen laddas ner, låt oss dröja vid några skillnader mellan de olika modellerna som du kommer att se. Det vi laddar ner just nu är Stable Diffusion 1.5 basmodell. I ComfyUI:s canvas har du kanske lagt märke till tre separata anslutningar från den allra första "Load Checkpoint"-noden. En vardera för MODEL, CLIP och VAE.
Det beror på att alla tre ingår i denna baskontrollpunkt, och du behöver inte använda separata CLIPs och VAE för just denna modell.
Nyare bildmodeller, som Flux eller HiDreamkräver att du laddar ner dem separat, så kom ihåg det. Tack och lov har de exempelmallar precis som den här, så du behöver inte oroa dig för att ställa in allt. Vi pratar om det senare. För nu, låt oss generera vår första bild.
Om du nu klickar på Run-knappen längst ner till höger kommer du att märka att ComfyUI fortfarande ger dig ett fel. Det beror på att modellen måste placeras i rätt mapp för att Comfy ska känna igen den. Gå nu till mappen där du laddade ner modellen i File Explorer och kopiera den.
Du kommer att märka att filnamnet har tillägget ".SAFETENSORS". Detta är det format som filen använder. Som en allmän regel ska du bara ladda ner filer med filnamnstillägget .safetensors. Ladda inte ner pickle tensors eller .pth. Lita på mig!
Öppna mappen där du installerade Stability Matrix och leta efter en mapp som heter "Models" Dubbelklicka på den och leta efter en undermapp som heter "StableDiffusion", klistra in .safetensors-filen i den.
För framtida referens. Modeller som innehåller CLIPS och VAE ska placeras i mappen "StableDiffusion". Modeller med endast UNET (ingen CLIP eller VAE) placeras i mappen "DiffusionModels". Textkodare (T5, Llama, CLIP L, CLIP G) måste placeras i mappen "TextEncoders". Slutligen placeras dina VAE-filer i mappen "VAE".
Som du säkert ser finns det många fler mappar än bara dessa tre. Mitt råd skulle vara att räkna ut det när du kommer till dem. Låt oss nu oroa oss för vår bild.
Uppdatera ComfyUI:s webbsida i din webbläsare. Klicka på dialogrutan i noden "Load Checkpoint" och välj din nedladdade fil.
Eftersom detta är en mall är allt redan upplagt åt dig. Det är dock värt att känna till de grundläggande förutsättningarna för dina framtida arbetsflöden. Låt oss börja till vänster. Vi har redan diskuterat Load Checkpoint-noden, och bredvid den finns två "CLIP Text Encode (Prompt)"-noder.
Den översta är den positiva prompten eller det du vill se i bilden. Den nedre är input för negativa uppmaningar eller vad du inte vill se i slutresultatet. Att generera bilder är balansen mellan dessa två noder kombinerade. Du skapar en bild, kontrollerar vad du inte gillar med den och anger det i den negativa prompten. För tillfället är dessa redan inmatade åt oss, så låt oss klicka på "Kör"
ComfyUI är ett visuellt gränssnitt, vilket innebär att du faktiskt kan se processen ske nod för nod. När din text är kodad skickas den till "KSampler", som börjar iterera bilden. Låt oss snabbt gå igenom alla inställningar i den här noden.
1) Seed: Tänk på det som bildens adress. Samma positiva uppmaning + negativ uppmaning + samma inställningar + samma frö = samma bild. Användbar för att återskapa och iterera på en bild.
2) Kontroll efter generering: Bestämmer om fröet ska slumpas efter varje generation eller om det ska förbli fast.
3) Steg: Antalet steg som KSampler ska iterera för. De flesta modeller kommer med rekommenderade steg.
4) CFG: Modellens lyhördhet för din prompt. Högre värden = strikt efterlevnad av uppmaningar men mindre kreativitet. Lägre värden = mer kreativa utdata på bekostnad av att uppmaningen följs.
5) Sampler_name: Namnet på den sampler som du använder för närvarande. Klicka på rullgardinsmenyn för att få fler alternativ. Experimentera med olika inställningar och samplers för att få varierande resultat.
6) Schemaläggare: Tänk på det som den andre befälhavaren som kommer med strategier som dirigenten godkänner. Återigen, experimentera med olika samplers och schemaläggare för att hitta en som fungerar för dig.
7) Denoise: Bestämmer hur mycket brus som läggs till i början av genereringsprocessen. Detta tas bort iterativt av samplern. Värdet kan inte sättas högre än 1,00, och värden under det (0,45 eller 0,65) används främst i arbetsflöden för bild-till-bild, refiner eller inpainting.
Latent_image-ingången till vänster om KSampler-noden bestämmer storleken på din bild. I arbetsflödet är den ansluten till en "Empty Latent Image"-nod med en upplösning på 512x512 och en batchstorlek (antalet bilder som genereras i en körning) på 1.
Titta på det där! Vår allra första bild. Om du har klarat dig så här långt, grattis! Du känner nu till grunderna för att komma igång med din resa inom bildgenerering. Ju mer du experimenterar, desto mer kommer du att upptäcka, och det här kaninhålet är djupt. Så ha det så roligt.
Användbara länkar
CivitAI: Din one-stop shop för nedladdning av modeller, LoRAs, inbäddningar och mycket mer. (Varning: Innehåller NSFW-innehåll. Använd inbyggda webbplatsfilter)
Monzon Media: Fantastisk resurs för nybörjare och avancerade ComfyUI-tutorials.
ComfyUI Wiki: För alla dina felsökningsbehov.
Bad ASS ComfyUI Resurslista: Länkar till alla Base MODELs, CLIPs och VAEs du kan behöva på ett och samma ställe.
Bekväma arbetsflöden: En dedikerad community för att dela och ladda ner arbetsflöden.