Bbabo NET

Nauka & Technologia Wiadomości

DeepMind przedstawia algorytm gracza w grach

DeepMind wprowadził system sztucznej inteligencji Player of Games, który może grać w pokera, szachy, Go i inne gry. Firma od dawna inwestuje w systemy gier wykorzystujące sztuczną inteligencję. DeepMind zauważa, że ​​gry, choć nie mają oczywistego komercyjnego zastosowania, demonstrują zdolności poznawcze sztucznej inteligencji.

Gracz gier, w przeciwieństwie do innych opracowanych wcześniej systemów DeepMind (AlphaZero, AlphaStar), może dobrze działać zarówno w grach, w których działa strategia (szachy), jak i w grach, w których ważne są inne czynniki (poker).

W ramach takich gier Gracz w Gry uczy się rozumowania o celach i motywach innych uczestników, co toruje drogę sztucznej inteligencji, która może z powodzeniem współpracować z innymi, w tym rozwiązywać problemy wymagające negocjacji i kompromisu osiągnięć.

„Gracz gier uczy się grać w gry od podstaw, po prostu grając samemu przez cały czas” — powiedział starszy pracownik naukowy DeepMind Martin Schmid, jeden ze współtwórców programu Player of Games. - „Jest to krok w kierunku uogólnienia – Gracz Gier może grać w gry z zarówno doskonałymi, jak i niedoskonałymi informacjami, poświęcając jednocześnie pewną wydajność”.

Chociaż Gracz Gier jest niezwykle wszechstronny, nie może grać w żadną grę. Schmid mówi, że system musi uwzględniać wszystkie możliwe perspektywy każdego gracza w danej sytuacji w grze. Chociaż w grach z doskonałą informacją jest tylko jedna perspektywa, w grach z niedoskonałą informacją takich pozycji może być wiele - na przykład około 2000 w pokerze. Co więcej, w przeciwieństwie do MuZero, następcy DeepMind AlphaZero, który wybiera reguły dla każdej gry, Player of Games musi się z nimi zapoznać.

W swoich badaniach DeepMind ocenił Player of Games wyszkolony przy użyciu chipsetów akceleratora Google Strategia planszowa TPUv4, Szachy, Go, Texas Hold'em i Scotland Yard. W przypadku Go zorganizowano turniej na 200 gier między AlphaZero i Player of Games, a w przypadku szachów DeepMind porównał Player of Games do najlepszych systemów, w tym GnuGo, Pachi i Stockfish, a także AlphaZero. Mecz Player of Games Texas Hold'em był rozgrywany przy użyciu publicznego Slumbota. W Scotland Yardzie algorytm grał z botem opracowanym przez Josepha Antoniusa Marię Neissena, którego współautorzy DeepMind nazywali „PimBot”. W chess and Go Player of Games okazał się lepszy od Stockfisha i Pachi w niektórych, ale nie we wszystkich konfiguracjach, i wygrał 0,5% partii nad AlphaZero. Pomimo tych strat, DeepMind wierzy, że Player of Games osiągnął wyniki na poziomie „najlepszego amatora”, a być może nawet na poziomie zawodowym.

Player of Games był najlepszy w pokerze i Scotland Yardzie.

Schmid uważa, że ​​gracz gier to duży krok w kierunku prawdziwie ogólnych systemów gier, ale daleki od ostatniego. Ogólny trend w eksperymentach polegał na tym, że algorytm działał lepiej przy większej ilości zasobów obliczeniowych (gracz został przeszkolony na zbiorze danych składającym się z 17 milionów „kroków” lub akcji tylko po to, by zagrać w Scotland Yard), a Schmid spodziewa się, że to podejście będzie skalowane do przewidywalnej przyszłości.

Eksperci AI szacują, że szkolenie AlphaZero kosztuje dziesiątki milionów dolarów. DeepMind nie ujawnił budżetu badawczego dla Player of Games, ale jest mało prawdopodobne, aby był niższy.

Nazwa algorytmu Gracza Gier nawiązuje do powieści science fiction szkockiego pisarza Iana M. Banksa, opublikowanej w 1988 roku. Opowiada historię Jernaua Gurgeha, słynącego z umiejętności gry planszowej.

Komentatorzy wskazują, że byłoby ciekawie przetestować algorytm w innych grach karcianych.

W zeszłym miesiącu DeepMind pokazał, jak to działa.System sztucznej inteligencji pomaga matematykom w znajdowaniu informacji do opracowywania twierdzeń. Wspólna praca badaczy i sztucznej inteligencji doprowadziła już do przełomu w hipotezie w dziedzinie topologii i teorii reprezentacji, a także do udowodnienia twierdzenia o strukturze węzłów.

W październiku DeepMind poinformował o pierwszy raz o rentowności. Firma zakończyła rok 2020 z zyskiem 43,8 mln GBP (59,6 mln USD).

DeepMind przedstawia algorytm gracza w grach