Bbabo NET

Știință & Tehnologie Știri

Yandex a actualizat rețeaua neuronală de difuzie YandexART la versiunea 1.3

Buna ziua! Numele meu este Evgeniy Lyapustin, sunt un dezvoltator senior în echipa de viziune computerizată. Împreună cu colegii noștri de la Yandex Research, am actualizat rețeaua neuronală de difuzie YandexART la versiunea 1.3.

Principala schimbare este că rețeaua neuronală a trecut la tehnologia de difuzie latentă. În plus, setul de date pe care a fost antrenat modelul a fost mărit de 2,5 ori. Datorită acestui fapt, noua versiune YandexART înțelege mai bine interogările de text și creează imagini și mai realiste.

YandexART 1.3 este deja folosit în Masterpiece, ai cărui utilizatori au acum posibilitatea de a crea imagini în diferite formate, cum ar fi 16:9, 4:3 sau 3:4. Mai târziu, rețeaua neuronală actualizată va începe să fie utilizată în alte servicii Yandex.

Cu difuzia în cascadă, imaginea se îmbunătățește progresiv odată cu creșterea rezoluției. Difuzia latentă funcționează diferit. Formează o reprezentare latentă intermediară a imaginii sub forma unei descrieri compacte care conține informații de bază despre imagine într-o formă comprimată. Rețeaua neuronală extinde apoi codul într-o imagine completă de înaltă rezoluție într-un singur pas.

Tehnologia de difuzie latentă consumă mai puține resurse de calcul și vă permite să creați grafice mai realiste. Am văzut asta în practică. Am antrenat două versiuni ale modelului în cele mai asemănătoare condiții: în cascadă și latentă. Și la fiecare etapă de antrenament, cel latent a câștigat la măsurători de calitate și viteză.

Setul de date a crescut de la 330 de milioane de perechi imagine-text la peste 850 de milioane de perechi. Pentru ca modelul să înțeleagă mai bine cererile utilizatorilor, la setul de date pe care a fost antrenat au fost adăugate texte sintetice - descrieri mai detaliate ale imaginilor generate de rețeaua neuronală. În imaginea de mai jos puteți vedea un exemplu de text sintetic.

În plus, pentru ca YandexART să țină cont de mai multe detalii din prompt, noul model folosește nu unul, ci două codificatoare de text. Primul este codificatorul nostru din versiunea anterioară 1.2, care a fost antrenat pentru potrivirea perechilor imagine-text.

Al doilea este nou pentru noi, bazat pe open source umt5_xxl. Spre deosebire de primul, acest codificator a fost antrenat doar pe texte. Două codificatoare diferite dau modelului semnale de natură diferită.

Conform rezultatelor măsurătorilor SBS efectuate de evaluatorii Yandex, rețeaua neuronală YandexART 1.3 câștigă în 57% din cazuri, comparativ cu Midjourney V5.2 și în 63% din cazuri în comparație cu versiunea anterioară a YandexART 1.2.

Yandex a actualizat rețeaua neuronală de difuzie YandexART la versiunea 1.3