Bbabo NET

Наука & Технології Новини

Яндекс оновив дифузійну нейромережу YandexART до версії 1.3

Вітання! Мене звуть Євген Ляпустін, я старший розробник у команді комп'ютерного зору. Разом із нашими колегами з Yandex Research ми оновили дифузійну нейромережу YandexART до версії 1.3.

Головна зміна у тому, що нейромережа перейшла на технологію латентної дифузії. Крім того, датасет, на якому навчалася модель, було збільшено у 2,5 рази. Завдяки цьому нова версія YandexART краще розуміє текстові запити та створює ще більш реалістичні зображення.

YandexART 1.3 вже застосовується у Шедеврумі, у користувачів якого з'явилася можливість створювати зображення у різних форматах, таких як 16:9, 4:3 або 3:4. Пізніше оновлена нейромережа почне застосовуватись і в інших сервісах Яндекса.

При каскадній дифузії зображення послідовно покращується зі збільшенням роздільної здатності. Латентна дифузія працює інакше. Вона формує проміжне латентне уявлення картинки у вигляді компактного опису, що містить основну інформацію про зображення в стиснутій формі. Потім нейромережа за один крок розгортає код у повноцінне зображення високої роздільної здатності.

Технологія латентної дифузії споживає менше обчислювальних ресурсів та дозволяє створювати більш реалістичну графіку. Ми переконалися у цьому практично. Навчили дві версії моделі в максимально схожих умовах: каскадну та латентну. І на кожному етапі навчання латентна перемагала у вимірах якості та швидкості.

Набір даних був збільшений з 330 мільйонів пар зображення-текст до більш ніж 850 мільйонів пар. Щоб модель краще розуміла запити користувачів, до датасету, на якому вона навчалася, були додані синтетичні тексти — згенеровані нейромережею докладніші описи зображень. На зображенні нижче можна побачити приклад синтетичного тексту.

Крім того, для того, щоб YandexART враховувала більше деталей з промпту, в новій моделі використовуються не один, а два текстові енкодери. Перший - наш енкодер з попередньої версії 1.2, який навчався на зіставленні пар картинка-текст.

Другий новий для нас, на базі опенсорсного umt5_xxl. На відміну від першого, цей енкодер навчався лише на текстах. Два різні енкодери дають моделі сигнали різної природи.

За результатами SBS-замірів асесорами Яндекса, нейромережа YandexART 1.3 виграє у 57 відсотках випадків у порівнянні з Midjourney V5.2 та у 63 відсотках випадків у порівнянні з попередньою версією YandexART 1.2.

Яндекс оновив дифузійну нейромережу YandexART до версії 1.3