Bbabo NET

Scienza & Tecnologia Notizia

Gli scienziati hanno dimostrato perché le grandi reti neurali funzionano meglio

In un documento presentato a dicembre alla conferenza NeurIPS di punta, Sebastien Bubeck di Microsoft Research e Mark Sellke della Stanford University hanno dimostrato che le reti neurali devono essere molto più grandi per evitare alcuni dei problemi nel loro funzionamento.

Le aspettative standard sulla dimensione delle reti neurali si basano su un'analisi di come ricordano i dati. Uno dei compiti più diffusi per le reti neurali è l'identificazione di oggetti nelle immagini. Per creare una tale rete neurale, i ricercatori gli forniscono prima una serie di immagini con etichette di oggetti, insegnandole a studiare le correlazioni tra di loro. Non appena la rete neurale ricorda abbastanza dati di addestramento, ottiene anche la capacità di prevedere le etichette di oggetti che non ha mai visto, con vari gradi di accuratezza. Questo processo è noto come generalizzazione.

La dimensione di una rete determina quante informazioni può ricordare. Le immagini, ad esempio, sono descritte da centinaia o migliaia di valori, uno per ogni pixel. Questo insieme di valori liberi è matematicamente equivalente alle coordinate di un punto nello spazio multidimensionale. Il numero di coordinate è chiamato dimensione.

Dagli anni '80, alle reti neurali sono stati assegnati tanti n parametri per adattarsi a n punti dati, indipendentemente dalla dimensionalità dei dati. Tuttavia, le moderne reti neurali hanno più parametri rispetto al numero di campioni di addestramento.

I ricercatori hanno considerato un parametro come l'affidabilità della rete neurale in relazione alla sua scala. Nel loro lavoro, mostrano che la parametrizzazione ridondante è necessaria per l'affidabilità della rete.

Gli scienziati hanno dimostrato che l'adattamento di punti dati ad alta dimensione richiede non solo n parametri, ma n × d parametri, dove d è la dimensione dei dati di input (ad esempio, 784 per un'immagine di 784 pixel). La dimostrazione si basa su un fatto della geometria multidimensionale, vale a dire che i punti distribuiti casualmente posti sulla superficie di una sfera sono quasi tutti entro un pieno diametro l'uno dall'altro.

Altre ricerche hanno identificato ulteriori ragioni per cui la parametrizzazione eccessiva è utile. Ad esempio, può migliorare l'efficienza del processo di apprendimento, nonché la capacità della rete neurale di generalizzare.

In precedenza, Google ha pubblicato uno studio sulle principali tendenze del machine learning nel 2021. L'azienda prevede lo sviluppo di modelli ML per uso generico più potenti con miliardi e persino trilioni di parametri.

Gli scienziati hanno dimostrato perché le grandi reti neurali funzionano meglio