Bbabo NET

Nauka & Technologia Wiadomości

Yandex zaktualizował dyfuzyjną sieć neuronową YandexART do wersji 1.3

Cześć! Nazywam się Evgeniy Lyapustin i jestem starszym programistą w zespole wizji komputerowej. Razem z naszymi kolegami z Yandex Research zaktualizowaliśmy dyfuzyjną sieć neuronową YandexART do wersji 1.3.

Główną zmianą jest przejście sieci neuronowej na technologię utajonej dyfuzji. Ponadto zbiór danych, na którym trenowano model, został powiększony 2,5-krotnie. Dzięki temu nowa wersja YandexART lepiej rozumie zapytania tekstowe i tworzy jeszcze bardziej realistyczne obrazy.

YandexART 1.3 jest już wykorzystywany w Masterpiece, którego użytkownicy mają teraz możliwość tworzenia obrazów w różnych formatach, np. 16:9, 4:3 czy 3:4. Później zaktualizowana sieć neuronowa zacznie być wykorzystywana w innych usługach Yandex.

W przypadku dyfuzji kaskadowej obraz stopniowo poprawia się wraz ze wzrostem rozdzielczości. Utajona dyfuzja działa inaczej. Stanowi pośrednią ukrytą reprezentację obrazu w postaci zwartego opisu zawierającego podstawowe informacje o obrazie w skompresowanej formie. Następnie sieć neuronowa w jednym kroku rozszerza kod do obrazu o pełnej rozdzielczości.

Technologia utajonej dyfuzji zużywa mniej zasobów obliczeniowych i pozwala tworzyć bardziej realistyczną grafikę. Widzieliśmy to w praktyce. Trenowaliśmy dwie wersje modelu w najbardziej podobnych warunkach: kaskadową i utajoną. I na każdym etapie treningu ten ukryty wygrywał w pomiarach jakości i szybkości.

Zbiór danych zwiększono z 330 milionów par obraz-tekst do ponad 850 milionów par. Aby model lepiej rozumiał żądania użytkowników, do zbioru danych, na którym był trenowany, dodano teksty syntetyczne – bardziej szczegółowe opisy obrazów generowanych przez sieć neuronową. Na poniższym obrazku możesz zobaczyć przykład tekstu syntetycznego.

Ponadto, aby YandexART mógł uwzględnić więcej szczegółów z podpowiedzi, nowy model wykorzystuje nie jeden, ale dwa kodery tekstu. Pierwszy to nasz koder z poprzedniej wersji 1.2, który został przeszkolony w zakresie dopasowywania par obraz-tekst.

Drugi jest dla nas nowością, oparty na otwartym kodzie źródłowym umt5_xxl. W przeciwieństwie do pierwszego, ten koder był szkolony wyłącznie na tekstach. Dwa różne enkodery dają modelowi sygnały o różnym charakterze.

Według wyników pomiarów SBS przeprowadzonych przez asesorów Yandex, sieć neuronowa YandexART 1.3 wygrywa w 57 procentach przypadków w porównaniu z Midjourney V5.2 i w 63 procentach przypadków w porównaniu z poprzednią wersją YandexART 1.2.

Yandex zaktualizował dyfuzyjną sieć neuronową YandexART do wersji 1.3