In einem Papier, das im Dezember auf der Flaggschiff-Konferenz NeurIPS vorgestellt wurde, zeigten Sebastien Bubeck von Microsoft Research und Mark Sellke von der Stanford University, dass neuronale Netze viel größer sein müssen, um einige der Probleme bei ihrem Betrieb zu vermeiden.
Standarderwartungen über die Größe neuronaler Netze basieren auf einer Analyse, wie sie sich Daten merken. Eine der beliebtesten Aufgaben für neuronale Netze ist die Identifizierung von Objekten in Bildern. Um ein solches neuronales Netzwerk zu erstellen, versorgen die Forscher es zunächst mit einer Reihe von Bildern mit Objektetiketten und bringen ihm bei, die Korrelationen zwischen ihnen zu untersuchen. Sobald sich das neuronale Netz genügend Trainingsdaten merkt, erhält es auch die Fähigkeit, die Bezeichnungen von Objekten, die es noch nie gesehen hat, mit unterschiedlicher Genauigkeit vorherzusagen. Dieser Vorgang wird als Generalisierung bezeichnet.
Die Größe eines Netzwerks bestimmt, wie viele Informationen es sich merken kann. Bilder werden beispielsweise durch Hunderte oder Tausende von Werten beschrieben – einen für jedes Pixel. Dieser Satz freier Werte entspricht mathematisch den Koordinaten eines Punktes im mehrdimensionalen Raum. Die Anzahl der Koordinaten wird als Dimension bezeichnet.
Seit den 80er Jahren werden neuronalen Netzen so viele n Parameter gegeben, dass sie zu n Datenpunkten passen – unabhängig von der Dimensionalität der Daten. Moderne neuronale Netze haben jedoch mehr Parameter als die Anzahl der Trainingsmuster.
Als einen solchen Parameter betrachteten die Forscher die Zuverlässigkeit des neuronalen Netzes in Verbindung mit seiner Größenordnung. Sie zeigen in ihrer Arbeit, dass für die Netzzuverlässigkeit eine redundante Parametrierung notwendig ist.
Wissenschaftler haben gezeigt, dass das Anpassen hochdimensionaler Datenpunkte nicht nur n Parameter erfordert, sondern n × d Parameter, wobei d die Dimension der Eingabedaten ist (z. B. 784 für ein 784-Pixel-Bild). Der Beweis basiert auf einer Tatsache aus der mehrdimensionalen Geometrie, nämlich dass zufällig verteilte Punkte, die auf der Oberfläche einer Kugel platziert sind, fast alle innerhalb eines vollen Durchmessers voneinander entfernt sind.
Andere Untersuchungen haben weitere Gründe identifiziert, warum eine Überparametrisierung nützlich ist. Beispielsweise kann es die Effizienz des Lernprozesses sowie die Verallgemeinerungsfähigkeit des neuronalen Netzes verbessern.
Zuvor hatte Google eine Studie zu den wichtigsten Machine-Learning-Trends im Jahr 2021 veröffentlicht. Das Unternehmen prognostiziert die Entwicklung leistungsfähigerer Allzweck-ML-Modelle mit Milliarden und sogar Billionen von Parametern.
bbabo.Net