Bbabo NET

Veda & Technika Správy

Yandex aktualizoval difúznu neurónovú sieť YandexART na verziu 1.3

Ahoj! Volám sa Evgeniy Lyapustin, som senior vývojár v tíme počítačového videnia. Spolu s našimi kolegami z Yandex Research sme aktualizovali difúznu neurónovú sieť YandexART na verziu 1.3.

Hlavnou zmenou je, že neurónová sieť prešla na technológiu latentnej difúzie. Okrem toho sa súbor údajov, na ktorom bol model trénovaný, zvýšil 2,5-krát. Vďaka tomu nová verzia YandexART lepšie rozumie textovým dotazom a vytvára ešte realistickejšie obrázky.

YandexART 1.3 sa už používa v Masterpiece, ktorého používatelia majú teraz možnosť vytvárať obrázky v rôznych formátoch, napríklad 16:9, 4:3 alebo 3:4. Neskôr sa aktualizovaná neurónová sieť začne používať v iných službách Yandex.

Pri kaskádovej difúzii sa obraz progresívne zlepšuje so zvyšujúcim sa rozlíšením. Latentná difúzia funguje inak. Tvorí medziľahlú latentnú reprezentáciu obrazu vo forme kompaktného popisu obsahujúceho základné informácie o obraze v komprimovanej forme. Neurónová sieť potom v jednom kroku rozšíri kód na obraz s plným vysokým rozlíšením.

Technológia latentnej difúzie spotrebuje menej výpočtových zdrojov a umožňuje vytvárať realistickejšiu grafiku. Videli sme to v praxi. Trénovali sme dve verzie modelu za najpodobnejších podmienok: kaskádový a latentný. A v každej fáze tréningu vyhrala tá latentná v meraniach kvality a rýchlosti.

Súbor údajov sa zvýšil z 330 miliónov párov obrázkov a textu na viac ako 850 miliónov párov. Aby model lepšie porozumel požiadavkám používateľov, do súboru údajov, na ktorom bol trénovaný, boli pridané syntetické texty – podrobnejšie popisy obrázkov generovaných neurónovou sieťou. Na obrázku nižšie vidíte príklad syntetického textu.

Okrem toho, aby YandexART zohľadnil ďalšie podrobnosti z výzvy, nový model nepoužíva jeden, ale dva textové kódovače. Prvým je náš kodér z predchádzajúcej verzie 1.2, ktorý bol trénovaný na párovanie párov obrázok-text.

Druhý je pre nás nový, založený na open source umt5_xxl. Na rozdiel od prvého bol tento kódovač trénovaný iba na textoch. Dva rôzne kódovače dávajú modelu signály rôzneho charakteru.

Podľa výsledkov meraní SBS hodnotiteľmi Yandex vyhráva neurónová sieť YandexART 1.3 v 57 percentách prípadov v porovnaní s Midjourney V5.2 a v 63 percentách prípadov v porovnaní s predchádzajúcou verziou YandexART 1.2.

Yandex aktualizoval difúznu neurónovú sieť YandexART na verziu 1.3