Bbabo NET

Наука & Технологии Новини

Учените показаха защо големите невронни мрежи работят по-добре

В документ, представен през декември на водещата конференция NeurIPS, Себастиен Бубек от Microsoft Research и Марк Селке от Станфордския университет показаха, че невронните мрежи трябва да бъдат много по-големи, за да се избегнат някои от проблемите в тяхната работа.

Стандартните очаквания за размера на невронните мрежи се основават на анализ на това как те запомнят данните. Една от популярните задачи за невронните мрежи е идентифицирането на обекти в изображения. За да създадат такава невронна мрежа, изследователите първо й предоставят набор от изображения с етикети на обекти, като я учат да изучава корелациите между тях. Веднага щом невронната мрежа запомни достатъчно данни за обучение, тя също така получава способността да предскаже етикетите на обекти, които никога не е виждала, с различна степен на точност. Този процес е известен като генерализация.

Размерът на мрежата определя колко информация може да запомни. Изображенията, например, се описват със стотици или хиляди стойности - по една за всеки пиксел. Този набор от свободни стойности е математически еквивалентен на координатите на точка в многомерното пространство. Броят на координатите се нарича размерност.

От 80-те години на миналия век на невронните мрежи са дадени толкова n параметри, за да паснат на n точки от данни - независимо от размерността на данните. Съвременните невронни мрежи обаче имат повече параметри от броя на обучаващите извадки.

Изследователите разгледаха такъв параметър като надеждността на невронната мрежа във връзка с нейния мащаб. В работата си те показват, че излишната параметризация е необходима за надеждността на мрежата.

Учените са показали, че монтирането на точки от данни с големи размери изисква не само n параметри, а n × d параметри, където d е размерът на входните данни (например 784 за 784-пиксела изображение). Доказателството се основава на факт от многомерната геометрия, а именно, че произволно разпределените точки, поставени върху повърхността на сфера, са почти всички в рамките на пълен диаметър една от друга.

Други изследвания са идентифицирали допълнителни причини, поради които свръхпараметризацията е полезна. Например, може да подобри ефективността на учебния процес, както и способността на невронната мрежа да обобщава.

Преди това Google публикува проучване за основните тенденции в машинното обучение през 2021 г. Компанията предвижда разработването на по-мощни ML модели с общо предназначение с милиарди и дори трилиони параметри.

Учените показаха защо големите невронни мрежи работят по-добре