Bbabo NET

Znanost & Tehnologija Novice

Yandex je posodobil difuzijsko nevronsko mrežo YandexART na različico 1.3

Zdravo! Moje ime je Evgeniy Lyapustin, sem višji razvijalec v skupini za računalniški vid. Skupaj z našimi kolegi iz Yandex Research smo posodobili difuzijsko nevronsko mrežo YandexART na različico 1.3.

Glavna sprememba je, da je nevronska mreža prešla na tehnologijo latentne difuzije. Poleg tega se je nabor podatkov, na katerem je bil model usposobljen, povečal za 2,5-krat. Zahvaljujoč temu nova različica YandexART bolje razume besedilne poizvedbe in ustvarja še bolj realistične slike.

YandexART 1.3 je že uporabljen v Masterpiece, katerega uporabniki imajo zdaj možnost ustvarjanja slik v različnih formatih, kot so 16:9, 4:3 ali 3:4. Kasneje se bo posodobljena nevronska mreža začela uporabljati v drugih storitvah Yandex.

S kaskadno difuzijo se slika postopoma izboljšuje z naraščajočo ločljivostjo. Latentna difuzija deluje drugače. Oblikuje vmesno latentno predstavitev slike v obliki kompaktnega opisa, ki vsebuje osnovne informacije o sliki v stisnjeni obliki. Nevronska mreža nato razširi kodo v polno sliko visoke ločljivosti v enem koraku.

Tehnologija latentne difuzije porabi manj računalniških virov in omogoča ustvarjanje bolj realistične grafike. To smo videli v praksi. V najbolj podobnih pogojih smo trenirali dve različici modela: kaskadno in latentno. In na vsaki stopnji treninga je latentni zmagal v meritvah kakovosti in hitrosti.

Nabor podatkov je bil povečan s 330 milijonov parov slike in besedila na več kot 850 milijonov parov. Da bi model bolje razumel zahteve uporabnikov, so bila naboru podatkov, na katerih se je usposabljal, dodana sintetična besedila – podrobnejši opisi slik, ki jih ustvari nevronska mreža. Na spodnji sliki lahko vidite primer sintetičnega besedila.

Poleg tega novi model ne uporablja enega, ampak dva kodirnika besedila, da bi YandexART upošteval več podrobnosti iz poziva. Prvi je naš kodirnik iz prejšnje različice 1.2, ki je bil usposobljen za ujemanje parov slika-besedilo.

Drugi je za nas nov, temelji na odprtokodnem umt5_xxl. Za razliko od prvega je bil ta kodirnik učen samo na besedilih. Dva različna kodirnika dajeta modelu signale različne narave.

Glede na rezultate meritev SBS, ki jih izvajajo Yandexovi ocenjevalci, nevronska mreža YandexART 1.3 zmaga v 57 odstotkih primerov v primerjavi z Midjourney V5.2 in v 63 odstotkih primerov v primerjavi s prejšnjo različico YandexART 1.2.

Yandex je posodobil difuzijsko nevronsko mrežo YandexART na različico 1.3