Един от основните недостатъци на генераторите на изображения е невъзможността да се създават идентични герои в различни пози и места. Това значително ограничава използването на невронни мрежи при разработването на игри, създаването на комикси и т.н. И така Midjourney най-накрая чу стенанията на милиони потребители и въведе възможността за пресъздаване на същите герои в нови поколения.
Повечето невронни мрежи изображение по описание са базирани на „дифузионни модели“, подобни на или директно използващи алгоритмите за генериране на изображения на Stable Diffusion (модел с отворен код от Stability AI). Те работят много грубо: те вземат текста на потребителя и се опитват да сглобят изображението пиксел по пиксел, като избират елементи, които съответстват на въведената подсказка.
Както при големите езикови модели (LLM) като ChatGPT на OpenAI или новия Command-R на Cohere, проблемът с всички генератори на изображения е, че AI генерира нещо ново за всяка отделна заявка, дори ако подсказката се повтаря или се използват същите ключови думи .
Това е чудесно, ако трябва да създадете напълно нови изображения. Но какво ще стане, ако създавате сценарий за филм, игра, графичен роман или комикс, в който един и същ герой трябва да се появи в различни сцени, настройки, изражения на лицето и реквизит?
Това е точно сценарият, който беше много труден за постигане с генеративния AI досега. Midjourney се опитва да поправи това, като въведе нов таг „-cref“, който потребителите могат да добавят в края на своите текстови подкани. В този случай Midjourney ще се опита да създаде снимки с едно и също лице, тип тяло и дори облекло, като ги вземе от URL адреса, който потребителят поставя след посочения таг.
Тъй като тази функция се развива и подобрява, Midjourney може да се развие от страхотна играчка или източник на идеи до по-професионален инструмент.
Маркерът работи най-добре с изображения, създадени преди това в Midjourney. Тази функция не е предназначена за снимки на реални хора. И като цяло неговата точност е ограничена, не може да възпроизведе трапчинки, лунички или лога на тениски.
Работният процес би бил първо да се генерира знакът и след това да се използва URL адресът, за да се получат други кадри от него.
Нека разгледаме един пример. Нека започнем с тази следа: "мускулест плешив мъж с мъниста и превръзка на окото."
Нека увеличим изображението, което ни хареса най-много, след което, като задържим клавиша Ctrl, щракнете върху него и изберете опцията „Копиране на връзката“.
След това можем да въведем нови подробности в подсказката: „облечен в бял смокинг, стоящ във вила –cref [URL]“ и да поставим URL адреса на изображението, което току-що генерирахме. Midjourney ще се опита да генерира същия герой като преди, но с нови детайли.
За съжаление, резултатът все още е далеч от оригиналния герой (и дори от оригиналната следа), но като цяло е обнадеждаващ.
Освен това можете до известна степен да контролирате „теглото“ на оригиналното изображение, тоест колко точно новото изображение възпроизвежда оригинала. За да направите това, добавете след URL адреса етикета „-cw“ с число от 1 до 100, например: „–cref [URL] –cw 100“. Колкото по-ниско е числото „cw“, толкова повече разлики от източника ще има в крайното изображение. Колкото по-високо е числото "cw", толкова по-точно новото изображение ще съответства на оригиналната връзка.
В примера по-долу можете да видите, че въвеждането на много ниска стойност на „cw 8“ доведе до желания бял смокинг. Сега обаче превръзката на окото липсва.
Е, няма нищо, което да не може да се поправи с „различен регион“...
И така, превръзката се появи, но на грешното око... Но това вече е голям напредък!
Освен това Midjourney добави още една функция за комбиниране на множество изображения. За да направите това, трябва да използвате два маркера „-cref“ до съответните URL адреси. Но тази функция току-що беше пусната. Ако имате Midjourney, можете да го опитате сами.
Още веднъж кратки инструкции за използване на новата функция:
Въведете --cref URL след подканата, където URL е връзка към изображението на символа.
Използвайте --cw, за да промените теглото на връзката (валидни стойности от 0 до 100).
Тегло 100 ( --cw 100) се използва по подразбиране за точно възпроизвеждане на лицето, косата и облеклото.
С тегло 0 ( --cw 0), невронната мрежа ще се фокусира само върху лицето (подходящо за смяна на дрехи/прическа и т.н.)
bbabo.Net