Bbabo NET

Ciência e Tecnologia Notícias

Cientistas mostraram por que grandes redes neurais funcionam melhor

Em um artigo apresentado em dezembro na principal conferência NeurIPS, Sebastien Bubeck, da Microsoft Research, e Mark Sellke, da Universidade de Stanford, mostraram que as redes neurais precisam ser muito maiores para evitar alguns dos problemas em sua operação.

As expectativas padrão sobre o tamanho das redes neurais são baseadas em uma análise de como elas se lembram dos dados. Uma das tarefas populares para redes neurais é a identificação de objetos em imagens. Para criar essa rede neural, os pesquisadores primeiro a fornecem um conjunto de imagens com rótulos de objetos, ensinando-a a estudar as correlações entre elas. Assim que a rede neural se lembra de dados de treinamento suficientes, ela também obtém a capacidade de prever os rótulos de objetos que nunca viu, com vários graus de precisão. Esse processo é conhecido como generalização.

O tamanho de uma rede determina quanta informação ela pode lembrar. As imagens, por exemplo, são descritas por centenas ou milhares de valores - um para cada pixel. Este conjunto de valores livres é matematicamente equivalente às coordenadas de um ponto no espaço multidimensional. O número de coordenadas é chamado de dimensão.

Desde os anos 80, as redes neurais receberam tantos n parâmetros para ajustar n pontos de dados - independentemente da dimensionalidade dos dados. No entanto, as redes neurais modernas têm mais parâmetros do que o número de amostras de treinamento.

Os pesquisadores consideraram tal parâmetro como a confiabilidade da rede neural em conexão com sua escala. Em seu trabalho, eles mostram que a parametrização redundante é necessária para a confiabilidade da rede.

Os cientistas mostraram que ajustar pontos de dados de alta dimensão requer não apenas n parâmetros, mas n × d parâmetros, onde d é a dimensão dos dados de entrada (por exemplo, 784 para uma imagem de 784 pixels). A prova é baseada em um fato da geometria multidimensional, a saber, que pontos distribuídos aleatoriamente colocados na superfície de uma esfera estão quase todos dentro de um diâmetro total um do outro.

Outras pesquisas identificaram razões adicionais pelas quais a sobreparametrização é útil. Por exemplo, pode melhorar a eficiência do processo de aprendizagem, bem como a capacidade de generalização da rede neural.

Anteriormente, o Google publicou um estudo sobre as principais tendências de machine learning em 2021. A empresa prevê o desenvolvimento de modelos de ML de uso geral mais poderosos, com bilhões e até trilhões de parâmetros.

Cientistas mostraram por que grandes redes neurais funcionam melhor