Bbabo NET

Nauka & Technologia Wiadomości

Naukowcy stworzyli sztuczną inteligencję, która tworzy sztuczną inteligencję

Trening nowoczesnych sieci neuronowych wymaga starannego dostrojenia wartości milionów, a nawet miliardów parametrów reprezentujących siłę połączeń między sztucznymi neuronami. Celem jest znalezienie dla nich wartości zbliżonych do idealnych, ale nie jest to łatwe do osiągnięcia. W efekcie szkolenie trwa dni, tygodnie, a nawet miesiące. Jednak Boris Knyazev z Uniwersytetu Guelph w Ontario wraz z kolegami opracowali i wyszkolili „hipernet”, który może przyspieszyć proces uczenia się.

Hipernet przewiduje parametry nowej sieci neuronowej w ułamku sekundy i teoretycznie może sprawić, że jej szkolenie nie będzie konieczne. Zajmuje się badaniem niezwykle złożonych modeli głębokich sieci neuronowych.

W tej chwili hipernet działa dobrze w określonych warunkach, ale będzie dalej rozwijany.

Obecnie najlepszymi metodami uczenia i optymalizacji głębokich sieci neuronowych są odmiany metody zwanej stochastycznym spadkiem gradientu (SGD). Nauka polega na minimalizowaniu błędów popełnianych przez sieć podczas wykonywania zadania, takiego jak rozpoznawanie obrazu. Algorytm SGD przetwarza wiele oznaczonych danych w celu dostrojenia parametrów sieci i zmniejszenia błędów lub strat. Spadek gradientu to iteracyjny proces schodzenia od wysokich wartości funkcji straty do pewnej wartości minimalnej.

Ale ta metoda działa tylko wtedy, gdy trzeba zoptymalizować sieć neuronową. Aby zbudować wstępną sieć neuronową, zwykle składającą się z kilku warstw sztucznych neuronów, inżynierowie muszą polegać na intuicji i praktycznych zasadach.

Teoretycznie można przejść przez wiele architektur, a następnie zoptymalizować każdą i wybrać najlepszą. Ale to zajmuje dużo czasu.

Dlatego badacze opracowali tak zwaną hipersieć grafową (GHN), aby znaleźć najlepszą architekturę głębokiej sieci neuronowej dla danego zadania, biorąc pod uwagę zestaw architektur kandydujących.

Architekturę głębokiej sieci neuronowej można postrzegać jako graf matematyczny - zbiór punktów lub węzłów połączonych liniami. Węzły są jednostkami obliczeniowymi.

Hipernet grafowy uczy się i przewiduje idealne parametry dla architektury, która ma zostać zoptymalizowana. Następnie zespół ustawia parametry rzeczywistej sieci neuronowej zgodnie z przewidywanymi wartościami i testuje ją na zadanym zadaniu. Metodę można również wykorzystać do uszeregowania kandydujących architektur i wybrania najbardziej wydajnej.

Naukowcy zdali sobie wtedy sprawę, że mogą stworzyć hipersieć. Pokazali, jak używać GHN nie tylko do znajdowania najlepszej architektury z zestawu próbek, ale także do przewidywania parametrów sieci, aby działała dobrze.

Hipernet GHN-2 poprawia dwa ważne aspekty hipersieci grafowej zbudowanej wcześniej. Wcześniej wyszkolenie hipernetu w celu przewidywania nowych architektur kandydujących wymagało dwóch innych sieci neuronowych. Pierwsza z nich umożliwia wykonywanie obliczeń na oryginalnym grafie kandydującym, co skutkuje aktualizacją informacji związanych z każdym węzłem, a druga bierze zaktualizowane węzły jako dane wejściowe i przewiduje parametry dla odpowiednich bloków obliczeniowych kandydującej sieci neuronowej. Te dwie sieci mają również własne parametry, które należy zoptymalizować, zanim hipernet będzie mógł poprawnie przewidzieć wartości parametrów. Wymaga to danych szkoleniowych — w tym przypadku losowej próbki możliwych architektur sztucznych sieci neuronowych (ANN).

Zespół napisał własne oprogramowanie, w którym zdefiniował 15 typów węzłów do mieszania i dopasowywania podczas budowania prawie każdej nowoczesnej głębokiej sieci neuronowej. Stworzono unikalny zestaw danych obejmujący 1 milion możliwych architektur.

Następnie naukowcy przetestowali zdolność GHN-2 do przewidywania parametrów dla dowolnej architektury kandydującej losowo. Ten nowy kandydat może mieć podobne właściwości do milionów architektur w uczącym zestawie danych lub może być inny.

Zespół przewidział parametry dla 500 wcześniej nieznanych losowych architektur sieci docelowych. Następnie te 500 architektur, których parametry ustawiono na przewidywane wartości, porównano z tymi samymi sieciami wytrenowanymi przy użyciu stochastycznego zejścia gradientowego. Nowy hipernet często znosił tysiące iteracji SGD, a czasami działał nawet lepiej, chociaż niektóre jego wyniki były bardziej zróżnicowane.

W przypadku zbioru danych obrazu znanego jako CIFAR-10 średnia dokładność GHN-2 w architekturach rozproszonych wyniosła 66,9%, zbliżając się do średniej dokładności 69,2% osiąganej przez sieci wytrenowane przy użyciu iteracji 2500 SGD. W przypadku architektur poza dystrybucją GHN-2 działał zaskakująco dobrze, osiągając dokładność około 60%. W szczególności osiągnięto dokładność 58,6% dla konkretnej, dobrze znanej architektury głębokiej sieci neuronowej o nazwie ResNet-50, która jest około 20 razy większa niż przeciętna architektura szkoleniowa.GHN-2 nie radził sobie tak dobrze z ImageNet, znacznie większym zbiorem danych, ze średnią dokładnością tylko około 27,2%. Jest to jednak więcej niż średnia dokładność 25,6% dla tych samych sieci wytrenowanych przy użyciu iteracji 5000 SGD. GHN-2 wykonuje swoje prognozy ImageNet w mniej niż sekundę, podczas gdy przy użyciu SGD uzyskuje się tę samą wydajność przez 10 000 razy dłużej.

Gdy GHN-2 znajdzie najlepszą sieć neuronową dla zadania na podstawie próbki architektur, zamiast uruchamiać SGD w sieci, jako punkt wyjścia można użyć prognoz hipernetowych.

Naukowcy widzą wiele możliwości ulepszenia GHN-2. Można go nauczyć tylko przewidywania parametrów dla danego problemu, takich jak klasyfikacja obrazów CIFAR-10 lub ImageNet. W przyszłości możliwe będzie trenowanie hipernetów grafowych na większej różnorodności architektur i różnych typach zadań (na przykład rozpoznawanie obrazów, rozpoznawanie mowy i przetwarzanie języka naturalnego).

Jeśli hipersieci okażą się skuteczne, to projektowanie i rozwój nowych głębokich sieci neuronowych nie będzie już ograniczane do dużych firm z dostępem do big data. Naukowcy widzą w tym potencjał „demokratyzacji głębokiego uczenia się”.

Jednak są też problemy. jeśli GHN-2 stanie się standardową metodą optymalizacji sieci neuronowych, to przewidywanie parametrów będzie „czarną skrzynką”, a jeśli hipernet popełni błąd, to naukowcy nie będą mieli możliwości tego sprawdzić.

Zazwyczaj głębokie sieci neuronowe znajdują wzorce w obrazach, tekście lub dźwiękach, które są dość ustrukturyzowanymi rodzajami informacji. GHN-2 znajduje wzorce na grafach całkowicie losowych architektur sieci neuronowych. Jednak hipernet może uogólniać, co oznacza, że ​​może przewidywać rozsądne parametry dla niewidocznych, a nawet nierozproszonych architektur sieciowych. W ten sposób model może nauczyć się przenosić wiedzę z jednej architektury do drugiej. Zdaniem autorów pracy „to właśnie może zainspirować stworzenie nowej teorii sieci neuronowych”.

Naukowcy stworzyli sztuczną inteligencję, która tworzy sztuczną inteligencję