Microsoft ogłosił uruchomienie nowej sieci neuronowej o nazwie VASA, która jest w stanie ożywiać zdjęcia i wirtualne postacie. Wykorzystując tylko jeden statyczny obraz i ścieżkę dźwiękową mowy, VASA tworzy filmy przedstawiające mówiące twarze, które ukazują szeroką gamę emocji, naturalnych ruchów głowy i mimiki. Dzięki szeroko zakrojonym eksperymentom i ocenie szeregu nowych wskaźników firma Microsoft próbowała przewyższyć poprzednie technologie generatywne.
VASA nie tylko zapewnia wysoką jakość wideo, ale także obsługuje generację online w rozdzielczości 512x512 do 40 kl./s przy niskim początkowym opóźnieniu. Może to utorować drogę do interakcji z wirtualnymi twarzami, które w przyszłości naśladują komunikację ludzką.
Realizm: model jest w stanie zsynchronizować ruchy warg z dźwiękiem i uchwycić szeroką gamę emocji, wyraziste niuanse twarzy i naturalne ruchy głowy.
Kontrolowane generowanie: Model dyfuzyjny jest w stanie uwzględnić takie parametry, jak kierunek spojrzenia, pozycja głowy i zmiany emocji.
Uogólnianie poza dystrybucją: metoda umożliwia przetwarzanie zdjęć i dźwięku wykraczających poza zbiór danych szkoleniowych, w tym rysunki i ilustracje. VASA może także wykorzystywać ścieżki dźwiękowe do śpiewania i mowę w języku innym niż angielski.
Generowanie w czasie rzeczywistym: metoda generuje klatki wideo w rozdzielczości 512 x 512 przy 45 klatkach na sekundę w trybie offline i może obsługiwać do 40 klatek na sekundę w trybie online przy opóźnieniu wynoszącym zaledwie 170 ms na komputerze PC z pojedynczą kartą graficzną NVIDIA RTX 4090.
Microsoft zdaje sobie sprawę z ryzyka i zauważa, że technologię należy wykorzystywać wyłącznie w dobrym celu. Istnieje jednak zagrożenie, że VASA może stać się niezastąpionym narzędziem w rękach oszustów. Dlatego w tej chwili Microsoft nie planuje udostępniania wersji demonstracyjnej, interfejsu API ani produktu online ani podawania dodatkowych szczegółów implementacji, dopóki nie uzyska całkowitej pewności, że sztuczna inteligencja będzie używana w sposób odpowiedzialny i zgodnie z jasnymi wytycznymi.
Biorąc pod uwagę potencjał tej technologii i możliwe zagrożenia związane z VASA, rozwój takiej sztucznej inteligencji w przyszłości będzie prawdopodobnie wolniejszy niż to możliwe.
Czy uważa Pan, że powinny obowiązywać rygorystyczne zasady korzystania z takich technologii?
bbabo.Net