Bbabo NET

Наука & Технологии Новини

DeepMind въвежда алгоритъм за играч на игри

DeepMind представи системата за изкуствен интелект Player of Games, която може да играе покер, шах, Go и други игри. Компанията отдавна инвестира в системи за игри с изкуствен интелект. DeepMind отбелязва, че игрите, въпреки че нямат очевидна търговска употреба, демонстрират когнитивните способности на изкуствения интелект.

Player of Games, за разлика от други системи за игри DeepMind, разработени по-рано (AlphaZero, AlphaStar), може да работи добре както в игри, където стратегията (шах) работи, така и в игри, където други фактори са важни (покер).

Като част от такива игри, Играчът на игрите се научава да разсъждава за целите и мотивите на други участници, което проправя пътя за AI, който може успешно да работи с други, включително решаване на проблеми, изискващи преговори и компромис с постиженията.

„Player of Games се научава да играе игри от нулата, като просто играе самостоятелно през цялото време“, каза старшият научен сътрудник на DeepMind Мартин Шмид, един от създателите на Player of Games. - „Това е стъпка към общото – Player of Games може да играе игри с перфектна и несъвършена информация, като същевременно жертва известна производителност.“

Въпреки че Player of Games е изключително гъвкав, той не може да играе никаква игра. Шмид казва, че системата трябва да вземе предвид всички възможни гледни точки на всеки играч в дадена игрова ситуация. Въпреки че в игрите с перфектна информация има само една перспектива, в игрите с несъвършена информация може да има много такива позиции - например около 2000 в покера. Нещо повече, за разлика от MuZero, наследник на DeepMind AlphaZero, който избира правила за всяка игра, Player of Games трябва да е запознат с тях.

В своето изследване DeepMind оцени Player of Games, обучен с помощта на чипсети за ускоряване на Google TPUv4, шах, Go, Texas Hold'em и стратегическа настолна игра на Скотланд Ярд. За Go беше организиран турнир от 200 игри между AlphaZero и Player of Games, а за шах DeepMind сравнява Player of Games с най-добрите системи, включително GnuGo, Pachi и Stockfish, както и AlphaZero. Мачът Player of Games Texas Hold'em беше изигран с помощта на обществения Slumbot. В Скотланд Ярд алгоритъмът играе срещу бот, разработен от Джоузеф Антониус Мария Нейсен, наречен "PimBot" от съавторите на DeepMind. В шах и го, Играчът на игрите се оказа по-добър от Stockfish и Pachi в определени, но не във всички конфигурации и спечели 0,5% от игрите над AlphaZero. Въпреки тези загуби, DeepMind вярва, че Player of Games се е представил на "най-добро аматьорско" ниво и може би дори на професионално ниво.

Player of Games е най-добрият в покера и Скотланд Ярд.

Шмид вярва, че Player of Games е голяма стъпка към наистина общи системи за игри, но далеч от последната. Общата тенденция в експериментите беше, че алгоритъмът се представяше по-добре с повече изчислителни ресурси (плейърът беше обучен върху набор от данни от 17 милиона „стъпки“ или действия само за да играе на Скотланд Ярд) и Шмид очаква този подход да се мащабира в обозримо бъдеще.

Експертите по изкуствен интелект изчисляват, че обучението на AlphaZero струва десетки милиони долари. DeepMind не разкри бюджета за изследване на Player of Games, но е малко вероятно той да бъде по-нисък.

Името на алгоритъма Player of Games се отнася до научнофантастичния роман на шотландския писател Иън М. Банкс, публикуван през 1988 г. Той разказва историята на Jernau Gurgeh, известен със своите способности за настолни игри.

Коментаторите посочват, че би било интересно да се тества алгоритъма в други игри с карти.

DeepMind въвежда алгоритъм за играч на игри