Bbabo NET

Veda & Technika Správy

Vedci ukázali, prečo veľké neurónové siete fungujú lepšie

V príspevku prezentovanom v decembri na vlajkovej lodi konferencie NeurIPS Sebastien Bubeck z Microsoft Research a Mark Sellke zo Stanfordskej univerzity ukázali, že neurónové siete musia byť oveľa väčšie, aby sa predišlo niektorým problémom pri ich prevádzke.

Štandardné očakávania týkajúce sa veľkosti neurónových sietí sú založené na analýze toho, ako si pamätajú dáta. Jednou z obľúbených úloh pre neurónové siete je identifikácia objektov na obrázkoch. Na vytvorenie takejto neurónovej siete jej výskumníci najskôr poskytnú súbor obrázkov s označeniami objektov, čím ju učia študovať vzájomné vzťahy medzi nimi. Len čo si neurónová sieť zapamätá dostatok trénovacích údajov, získa aj schopnosť predpovedať označenia objektov, ktoré nikdy nevidela, s rôznou mierou presnosti. Tento proces je známy ako zovšeobecňovanie.

Veľkosť siete určuje, koľko informácií si dokáže zapamätať. Obrázky sú napríklad opísané stovkami alebo tisíckami hodnôt - jedna pre každý pixel. Táto množina voľných hodnôt je matematicky ekvivalentná súradniciam bodu vo viacrozmernom priestore. Počet súradníc sa nazýva dimenzia.

Od 80. rokov majú neurónové siete toľko n parametrov, aby sa zmestili n dátových bodov – bez ohľadu na rozmernosť dát. Moderné neurónové siete však majú viac parametrov ako počet trénovacích vzoriek.

Vedci uvažovali o takom parametri, akým je spoľahlivosť neurónovej siete v súvislosti s jej rozsahom. Vo svojej práci ukazujú, že pre spoľahlivosť siete je potrebná redundantná parametrizácia.

Vedci ukázali, že prispôsobenie vysokorozmerných údajových bodov si vyžaduje nielen n parametrov, ale n × d parametrov, kde d je rozmer vstupných údajov (napríklad 784 pre 784-pixelový obrázok). Dôkaz je založený na skutočnosti z viacrozmernej geometrie, a to, že náhodne rozmiestnené body umiestnené na povrchu gule sú takmer všetky v rámci celého priemeru jeden od druhého.

Iný výskum identifikoval ďalšie dôvody, prečo je nadparametrizácia užitočná. Môže napríklad zlepšiť efektivitu procesu učenia, ako aj schopnosť neurónovej siete zovšeobecňovať.

Google predtým zverejnil štúdiu o hlavných trendoch strojového učenia v roku 2021. Spoločnosť predpovedá vývoj výkonnejších modelov ML na všeobecné použitie s miliardami a dokonca biliónmi parametrov.

Vedci ukázali, prečo veľké neurónové siete fungujú lepšie