Bbabo NET

Wetenschap & Technologie Nieuws

Wetenschappers hebben aangetoond waarom grote neurale netwerken

Sebastien Bubeck van Microsoft Research en Mark Sellke van Stanford University toonden in een paper dat in december werd gepresenteerd op de vlaggenschip NeurIPS-conferentie dat neurale netwerken veel groter moeten zijn om een ​​aantal van de problemen in hun werking te voorkomen.

Standaardverwachtingen over de grootte van neurale netwerken zijn gebaseerd op een analyse van hoe ze gegevens onthouden. Een van de populaire taken voor neurale netwerken is de identificatie van objecten in afbeeldingen. Om zo'n neuraal netwerk te creëren, voorzien onderzoekers het eerst van een reeks afbeeldingen met objectlabels, en leren ze de correlaties daartussen te bestuderen. Zodra het neurale netwerk voldoende trainingsgegevens onthoudt, krijgt het ook de mogelijkheid om de labels van objecten die het nog nooit heeft gezien te voorspellen, met wisselende nauwkeurigheid. Dit proces staat bekend als generalisatie.

De grootte van een netwerk bepaalt hoeveel informatie het kan onthouden. Afbeeldingen worden bijvoorbeeld beschreven door honderden of duizenden waarden - één voor elke pixel. Deze set van vrije waarden is wiskundig gelijk aan de coördinaten van een punt in de multidimensionale ruimte. Het aantal coördinaten wordt de dimensie genoemd.

Sinds de jaren 80 hebben neurale netwerken zoveel n parameters gekregen om op n gegevenspunten te passen, ongeacht de dimensionaliteit van de gegevens. Moderne neurale netwerken hebben echter meer parameters dan het aantal trainingsvoorbeelden.

De onderzoekers beschouwden een dergelijke parameter als de betrouwbaarheid van het neurale netwerk in verband met zijn schaal. In hun werk laten ze zien dat redundante parametrering noodzakelijk is voor netwerkbetrouwbaarheid.

Wetenschappers hebben aangetoond dat het passen van hoogdimensionale gegevenspunten niet alleen n parameters vereist, maar ook n × d parameters, waarbij d de dimensie is van de invoergegevens (bijvoorbeeld 784 voor een afbeelding van 784 pixels). Het bewijs is gebaseerd op een feit uit de multidimensionale meetkunde, namelijk dat willekeurig verdeelde punten die op het oppervlak van een bol zijn geplaatst, bijna allemaal binnen een volledige diameter van elkaar liggen.

Ander onderzoek heeft aanvullende redenen gevonden waarom overparametrisering nuttig is. Het kan bijvoorbeeld de efficiëntie van het leerproces verbeteren, evenals het vermogen van het neurale netwerk om te generaliseren.

Eerder publiceerde Google al een onderzoek naar de belangrijkste machine learning-trends in 2021. Het bedrijf voorspelt de ontwikkeling van krachtigere ML-modellen voor algemene doeleinden met miljarden en zelfs biljoenen parameters.

Wetenschappers hebben aangetoond waarom grote neurale netwerken