Bbabo NET

Vetenskap & Teknik Nyheter

Midjourney har lärt sig att skapa identiska karaktärer

En av de största nackdelarna med bildgeneratorer är oförmågan att skapa identiska karaktärer i olika poser och platser. Detta begränsar kraftigt användningen av neurala nätverk i spelutveckling, serieskapande etc. Och så hörde Midjourney äntligen stönen från miljontals användare och introducerade möjligheten att återskapa samma karaktärer i nya generationer.

De flesta bild-för-beskrivning neurala nätverk är baserade på "diffusionsmodeller", som liknar eller direkt använder bildgenereringsalgoritmerna för Stable Diffusion (en öppen källkodsmodell från Stability AI). De arbetar väldigt grovt: de tar användarens text och försöker sätta ihop bilden pixel för pixel, och väljer element som matchar den angivna tipsen.

Som med stora språkmodeller (LLM) som OpenAI:s ChatGPT eller Coheres nya Command-R, är problemet med alla bildgeneratorer att AI:n genererar något nytt för varje enskild begäran, även om tipset upprepas eller samma nyckelord används .

Detta är bra om du behöver skapa helt nya bilder. Men vad händer om du skapar en storyboard för en film, ett spel, en grafisk roman eller en serietidning där samma karaktär måste förekomma i olika scener, inställningar, ansiktsuttryck och rekvisita?

Det är just detta scenario som har varit mycket svårt att uppnå med generativ AI fram till nu. Midjourney försöker fixa detta genom att introducera en ny "-cref"-tagg som användare kan lägga till i slutet av sina textmeddelanden. I det här fallet kommer Midjourney att försöka skapa bilder med samma ansikte, kroppstyp och till och med kläder, ta dem från webbadressen som användaren klistrar in efter den angivna taggen.

När den här funktionen utvecklas och förbättras kan Midjourney utvecklas från en cool leksak eller idékälla till ett mer professionellt verktyg.

Taggen fungerar bäst med bilder som tidigare skapats i Midjourney. Den här funktionen är inte avsedd för bilder av riktiga människor. Och totalt sett är dess noggrannhet begränsad, det går inte att replikera gropar, fräknar eller T-shirtlogotyper.

Arbetsflödet skulle vara att först generera tecknet och sedan använda URL:en för att få andra ramar av det.

Låt oss titta på ett exempel. Låt oss börja med denna ledtråd: "muskulär skallig man med pärlor och en ögonlapp."

Låt oss förstora bilden som vi gillade mest och sedan, håll nere Ctrl-tangenten, klicka på den och välj alternativet "Kopiera länk".

Vi kan sedan lägga in nya detaljer i verktygstipset: "bär en vit smoking, står i en villa –cref [URL]" och klistra in URL:en till bilden vi just skapade. Midjourney kommer att försöka generera samma karaktär som tidigare, men med nya detaljer.

Tyvärr är resultatet fortfarande långt ifrån den ursprungliga karaktären (och till och med från den ursprungliga ledtråden), men överlag är det uppmuntrande.

Dessutom kan du i viss mån styra "vikten" på originalbilden, det vill säga hur exakt den nya bilden återger originalet. För att göra detta, lägg till efter URL:en taggen "-cw" med ett nummer från 1 till 100, till exempel: "–cref [URL] -cw 100". Ju lägre "cw"-nummer, desto fler skillnader från källan blir det i den slutliga bilden. Ju högre "cw"-nummer, desto bättre matchar den nya bilden den ursprungliga länken.

I exemplet nedan kan du se att ett mycket lågt värde på "cw 8" gav den önskade vita smokingen. Nu saknas dock ögonlappen.

Tja, det finns inget som inte kan fixas med "variera region"...

Så, bandaget dök upp, men på fel öga... Men det här är redan stora framsteg!

Dessutom lade Midjourney till ytterligare en funktion för att kombinera flera bilder. För att göra detta måste du använda två "-cref"-taggar bredvid motsvarande webbadresser. Men den här funktionen har precis lanserats. Har du Midjourney kan du prova själv.

Återigen, korta instruktioner för hur du använder den nya funktionen:

Ange --cref URL efter prompten, där URL är en länk till teckenbilden.

Använd --cw för att ändra länkvikten (giltiga värden från 0 till 100).

En vikt på 100 ( --cw 100) används som standard för att exakt återge ansiktet, håret och kläderna.

Med en vikt på 0 ( --cw 0) kommer det neurala nätverket att fokusera endast på ansiktet (lämpligt för att byta kläder/frisyrer, etc.)

Midjourney har lärt sig att skapa identiska karaktärer