Bbabo NET

Wetenschap & Technologie Nieuws

Yandex heeft het YandexART diffusie neurale netwerk bijgewerkt naar versie 1.3

Hallo! Mijn naam is Evgeniy Lyapustin, ik ben een senior ontwikkelaar in het computer vision-team. Samen met onze collega's van Yandex Research hebben we het YandexART diffusie neurale netwerk bijgewerkt naar versie 1.3.

De belangrijkste verandering is dat het neurale netwerk is overgestapt op latente diffusietechnologie. Bovendien werd de dataset waarop het model werd getraind 2,5 keer vergroot. Dankzij dit begrijpt de nieuwe versie van YandexART tekstquery's beter en creëert het nog realistischere afbeeldingen.

YandexART 1.3 wordt al gebruikt in Masterpiece, waarvan gebruikers nu de mogelijkheid hebben om afbeeldingen in verschillende formaten te maken, zoals 16:9, 4:3 of 3:4. Later zal het bijgewerkte neurale netwerk in andere Yandex-services worden gebruikt.

Met cascadediffusie verbetert het beeld geleidelijk met toenemende resolutie. Latente diffusie werkt anders. Het vormt een latente tussenweergave van het beeld in de vorm van een compacte beschrijving die in gecomprimeerde vorm basisinformatie over het beeld bevat. Het neurale netwerk breidt de code vervolgens in één stap uit tot een volledig beeld met hoge resolutie.

Latente diffusietechnologie verbruikt minder computerbronnen en stelt u in staat realistischere afbeeldingen te maken. Wij hebben dit in de praktijk gezien. We hebben twee versies van het model getraind onder de meest vergelijkbare omstandigheden: cascade en latent. En in elke trainingsfase won de latente in kwaliteits- en snelheidsmetingen.

De dataset is uitgebreid van 330 miljoen beeld-tekstparen naar meer dan 850 miljoen paren. Om ervoor te zorgen dat het model gebruikersverzoeken beter kon begrijpen, werden synthetische teksten toegevoegd aan de dataset waarop het was getraind: meer gedetailleerde beschrijvingen van afbeeldingen gegenereerd door het neurale netwerk. In de onderstaande afbeelding ziet u een voorbeeld van synthetische tekst.

Om ervoor te zorgen dat YandexART rekening kan houden met meer details van de prompt, gebruikt het nieuwe model bovendien niet één, maar twee tekstencoders. De eerste is onze encoder uit de vorige versie 1.2, die is getraind in het matchen van beeld-tekstparen.

De tweede is nieuw voor ons, gebaseerd op de open source umt5_xxl. In tegenstelling tot de eerste werd deze encoder alleen op teksten getraind. Twee verschillende encoders geven de modelsignalen van verschillende aard.

Volgens de resultaten van SBS-metingen door Yandex-beoordelaars wint het neurale netwerk YandexART 1.3 in 57 procent van de gevallen vergeleken met Midjourney V5.2 en in 63 procent van de gevallen vergeleken met de vorige versie van YandexART 1.2.

Yandex heeft het YandexART diffusie neurale netwerk bijgewerkt naar versie 1.3