Bbabo NET

Nauka & Technologia Wiadomości

Naukowcy wykazali, dlaczego duże sieci neuronowe działają lepiej

W artykule zaprezentowanym w grudniu na flagowej konferencji NeurIPS Sebastien Bubeck z Microsoft Research i Mark Sellke z Uniwersytetu Stanforda wykazali, że sieci neuronowe muszą być znacznie większe, aby uniknąć niektórych problemów w ich działaniu.

Standardowe oczekiwania dotyczące wielkości sieci neuronowych opierają się na analizie sposobu zapamiętywania danych. Jednym z popularnych zadań sieci neuronowych jest identyfikacja obiektów na obrazach. Aby stworzyć taką sieć neuronową, naukowcy najpierw dostarczają jej zestaw obrazów z etykietami obiektów, ucząc ją badania korelacji między nimi. Gdy tylko sieć neuronowa zapamiętuje wystarczającą ilość danych uczących, uzyskuje również zdolność przewidywania etykiet obiektów, których nigdy nie widziała, z różnym stopniem dokładności. Ten proces nazywa się uogólnianiem.

Rozmiar sieci określa, ile informacji może zapamiętać. Na przykład obrazy opisane są setkami lub tysiącami wartości – po jednej na każdy piksel. Ten zbiór wolnych wartości jest matematycznie równoważny współrzędnym punktu w przestrzeni wielowymiarowej. Liczba współrzędnych nazywana jest wymiarem.

Od lat 80. sieciom neuronowym przypisywano aż n parametrów, aby dopasować n punktów danych — niezależnie od wymiaru danych. Jednak nowoczesne sieci neuronowe mają więcej parametrów niż liczba próbek uczących.

Badacze brali pod uwagę taki parametr, jak niezawodność sieci neuronowej w związku z jej skalą. W swojej pracy pokazują, że nadmiarowa parametryzacja jest niezbędna dla niezawodności sieci.

Naukowcy wykazali, że dopasowanie wysokowymiarowych punktów danych wymaga nie tylko n parametrów, ale parametrów n × d, gdzie d jest wymiarem danych wejściowych (na przykład 784 dla obrazu o rozdzielczości 784 pikseli). Dowód opiera się na fakcie z geometrii wielowymiarowej, a mianowicie, że losowo rozmieszczone punkty umieszczone na powierzchni kuli prawie wszystkie znajdują się w obrębie pełnej średnicy od siebie.

Inne badania zidentyfikowały dodatkowe powody, dla których przeparametryzacja jest przydatna. Na przykład może poprawić wydajność procesu uczenia się, a także zdolność sieci neuronowej do uogólniania.

Wcześniej Google opublikował badanie dotyczące głównych trendów w uczeniu maszynowym w 2021 roku. Firma przewiduje rozwój potężniejszych modeli ML ogólnego przeznaczenia z miliardami, a nawet bilionami parametrów.

Naukowcy wykazali, dlaczego duże sieci neuronowe działają lepiej