litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 207 208 209 210 211 212 213 214 215 ... 482
Перейти на страницу:
32 Гб. Матч завершился победой AlphaZero со счётом 574½ : 425½ (155 побед, 6 поражений, 839 ничьих). Заодно авторы статьи провели между программами игры, отведя им разное время на обдумывание ходов. И хотя это не уравнивало производительность аппаратных платформ во флопсах, но как минимум по энергопотреблению достигался приблизительный паритет. Однако, даже используя 1/10 времени, отведённого оппоненту, AlphaZero смогла одержать победу над Stockfish.

6.2.3.5 Последние достижения нейросетей в го и шахматах

В ноябре 2019 г. специалисты DeepMind опубликовали препринт[1964] статьи с описанием новой игровой системы ИИ, получившей название MuZero. Вторая, дополненная версия препринта была опубликована в 2020 г. MuZero не только превосходит по силе игры своих предшественников, но и способна обучиться играть в игру без предварительного знания её правил. К числу игр, на которых была опробована новая система, добавились классические игры для игровой приставки Atari 2600 (такие как Q*bert, Tennis, Video Pinball, Ms Pacman, Breakout, Pong и др., всего 57 игр).

В 2021 г. увидела свет наследница MuZero — система под названием EfficientZero с гораздо большей скоростью обучения: для достижения сверхчеловеческого уровня во многих играх для Atari ей достаточно всего пары часов игрового времени[1965].

Матч Ли Седоля и AlphaGo, а также последующие успехи DeepMind в области го не только подняли уровень игры на невиданную доселе высоту, но и послужили источником сильных переживаний для многих профессиональных игроков. В 2019 г. 36-летний Ли Седоль заявил о завершении своей игровой карьеры. «Даже если я стану номером один, есть сущность, которую нельзя победить», — сказал он в интервью агентству Yonhap News. Конечно, эта позиция напоминает позицию тяжелоатлета, покинувшего тяжёлую атлетику по той причине, что подъёмный кран способен поднять груз, который никогда не сможет поднять человек. Впрочем, нам трудно сейчас установить наверняка, была ли чья-то психика всерьёз травмирована в результате появления подъёмных кранов.

AlphaGo не была единственной программой для игры в го, использовавшей методы глубокого обучения. Параллельно с DeepMind разработки в этой области вели исследователи из компании Facebook. Первым их детищем стала программа Darkforest, названная так в честь одноимённого романа китайского писателя-фантаста Лю Цысиня. Первая версия Darkforest была основана на свёрточной нейронной сети, обученной на датасете, включавшем 250 000 партий игроков-людей. Начиная со второй версии разработчики использовали комбинацию MCTS и свёрточной сети. После выхода первой статьи от DeepMind, сообщившей миру о победе AlphaGo в матче с Фань Хуэем, Facebook выложила исходные коды Darkforest в открытый доступ. Сила игры Darkforest примерно соответствовала силе игры лучших программ того времени, таких как Zen, DolBaram и Crazy Stone, но заметно уступала силе игры AlphaGo. Позже усовершенствованная версия Darkforest стала[1966] частью платформы ELF под названием ELF OpenGo. В 2018 г. OpenGo сыграла 14 партий с четырьмя профессиональными игроками в го из числа топ-30, одержав победу во всех играх. Во время игры OpenGo использовала один GPU и тратила 50 секунд на выбор каждого хода, а её противники не были ограничены во времени.

В 2019 г. свет увидела программа KataGo, воплощающая в себе воспроизведение и развитие методов, использованных создателями AlphaGo. Благодаря усилиям её создателя, Дэвида Ву, KataGo демонстрирует значительно более высокую вычислительную эффективность, чем её предшественники, что позволяет успешно обучать программу с использованием сравнительно недорогого оборудования[1967], [1968]. На сентябрь 2023 г. KataGo занимает[1969] уверенное первое место в рейтингах публичных программ для игры в го.

25 октября 2017 г. состоялся первый релиз проекта Leela Zero — программы для игры в го с открытым исходным кодом, созданной бельгийским программистом Джаном-Карло Паскутто, автором шахматного движка Sjeng и движка для игры в го под названием Leela. Автор Leela Zero поставил перед собой задачу воспроизвести алгоритм, описанный в статье, посвящённой AlphaGo Zero.

В начале 2018 г. было создано ответвление проекта Leela Zero под названием Leela Chess Zero (LC0). Его создатели поставили перед собой цель воспроизвести публикацию, посвящённую AlphaZero, применительно к игре в шахматы. Альтернативой использованию гигантских вычислительных мощностей Google стало создание инфраструктуры для краудсорсинга, но даже совместными усилиями участникам проекта необходимы месяцы расчётов на то, на что у DeepMind ушли всего лишь часы. Матчи, проведённые весной 2020 г., показывали несущественную разницу в силе игры Stockfish и LC0. На 15 марта 2020 г. на сайте CCRL (Computer Chess Rating Lists, популярный сайт с таблицей рейтингов шахматных программ) версия Leela Chess Zero 0.22.0 T40B.4-160, использующая для игры одну видеокарту GTX1050, уступала Stockfish 11 только 31 пункт Эло (3464 против 3495), что соответствует разнице 54 : 46 по набираемым очкам (при ограничении времени, эквивалентном 15 минутам на каждые 40 ходов на CPU i7-4770k, т. е. при использовании других процессоров ограничение времени изменяется пропорционально производительности). Поскольку GTX1050 заметно уступает в производительности лучшим GPU, не говоря уже о TPU, то при использовании более производительного оборудования LC0, вероятно, не уступала Stockfish. Среди турниров TCEC и CCCC в числе победителей попеременно оказывались Leela Chess Zero (или ответвления от этого проекта) и Stockfish. В последние годы число нейросетевых шахматных движков постоянно росло — Leelenstein, Allie+Stein, Scorpio NN, Antifish, — и шахматное сообщество ожидало, что по мере роста доступности NPU они вытеснят «классические» программы с компьютерно-шахматного олимпа.

Ситуация разрешилась неожиданным образом в результате появления нейросетевой версии Stockfish. Новая версия, получившая название Stockfish+NNUE (или просто Stockfish NNUE), по сравнению с классическим вариантом движка прибавила в силе игры не менее 80 пунктов Эло. Аббревиатура NNUE в названии программы — это двойной перевёртыш: создатель модели под названием «Эффективно обновляемая нейронная сеть» (Efficiently Updatable Neural Network), японский исследователь Ю Насу, использовал в качестве её сокращённого названия зеркальный вариант аббревиатуры — ƎUИИ[1970]. Поскольку в XXI в. в интернете всё ещё существуют проблемы с символами вроде «Ǝ» или «И», в ряде случаев удобнее использовать вариант названия, состоящий из базовой латиницы — NNUE.

Другой японский исследователь, Хисайори Нода, известный как автор ряда сильных движков для игры в сёги, использовал ряд техник Stockfish при разработке программ для игры в сёги. Нода продемонстрировал своё уважение создателям шахматного движка, подарив сообществу Stockfish реализацию NNUE для шахмат. Особенностью NNUE является то, что эта сеть способна эффективно выполняться на современных CPU, используя их векторные инструкции. NNUE в Stockfish используется только для оценки позиции (причём в самых последних версиях нейронная сеть используется лишь в позициях с незначительным дисбалансом материала на доске, что позволяет дополнительно ускорить работу движка), то есть в Stockfish NNUE отсутствует «сеть политик» и перебор осуществляется при помощи классического

1 ... 207 208 209 210 211 212 213 214 215 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?