Bbabo NET

Ciencia & Tecnología Noticias

Los científicos han demostrado por qué las redes neuronales grandes funcionan mejor

En un artículo presentado en diciembre en la conferencia insignia de NeurIPS, Sebastien Bubeck de Microsoft Research y Mark Sellke de la Universidad de Stanford demostraron que las redes neuronales deben ser mucho más grandes para evitar algunos de los problemas en su funcionamiento.

Las expectativas estándar sobre el tamaño de las redes neuronales se basan en un análisis de cómo recuerdan los datos. Una de las tareas populares de las redes neuronales es la identificación de objetos en imágenes. Para crear una red neuronal de este tipo, los investigadores primero le proporcionan un conjunto de imágenes con etiquetas de objetos, enseñándole a estudiar las correlaciones entre ellos. Tan pronto como la red neuronal recuerda suficientes datos de entrenamiento, también obtiene la capacidad de predecir las etiquetas de los objetos que nunca ha visto, con diversos grados de precisión. Este proceso se conoce como generalización.

El tamaño de una red determina cuánta información puede recordar. Las imágenes, por ejemplo, se describen con cientos o miles de valores, uno para cada píxel. Este conjunto de valores libres equivale matemáticamente a las coordenadas de un punto en el espacio multidimensional. El número de coordenadas se llama dimensión.

Desde los años 80, a las redes neuronales han dado tantos n parámetros para ajustar n puntos de datos, independientemente de la dimensionalidad de los datos. Sin embargo, las redes neuronales modernas tienen más parámetros que el número de muestras de entrenamiento.

Los investigadores consideraron un parámetro como la confiabilidad de la red neuronal en relación con su escala. En su trabajo, muestran que la parametrización redundante es necesaria para la confiabilidad de la red.

Los científicos han demostrado que ajustar puntos de datos de alta dimensión requiere no solo n parámetros, sino n × d parámetros, donde d es la dimensión de los datos de entrada (por ejemplo, 784 para una imagen de 784 píxeles). La prueba se basa en un hecho de la geometría multidimensional, a saber, que los puntos distribuidos al azar colocados en la superficie de una esfera están casi todos dentro de un diámetro completo entre sí.

Otra investigación ha identificado razones adicionales por las que la sobreparametrización es útil. Por ejemplo, puede mejorar la eficiencia del proceso de aprendizaje, así como la capacidad de generalización de la red neuronal.

Anteriormente, Google publicó un estudio sobre las principales tendencias de aprendizaje automático en 2021. La empresa predice el desarrollo de modelos de aprendizaje automático de propósito general más potentes con miles de millones e incluso billones de parámetros.

Los científicos han demostrado por qué las redes neuronales grandes funcionan mejor