Шрифт:
Интервал:
Закладка:
Самого впечатляющего успеха в использовании глубокого обучения с подкреплением удалось добиться в марте 2016 года, когда AlphaGo, система, разработанная DeepMind для игры в древнюю игру го, нанесла поражение Ли Седолю, в то время одному из сильнейших в мире игроков, в турнире из пяти игр в Сеуле. Мастерское владение го очень высоко почитается в Азии, где в эту игру играют несколько тысячелетий. Она упоминается в текстах Конфуция, а ее корни, вероятно, уходят в глубь времен, к истокам китайской цивилизации. Согласно одной теории, го было изобретено во время правления императора Яо ранее 2000 года до нашей эры[145]. Го наряду с каллиграфией, живописью и игрой на струнном музыкальном инструменте считалось одним из четырех главных искусств, которыми должен был владеть древнекитайский ученый.
В отличие от шахмат, го настолько сложная игра, что алгоритмы полного перебора ходов в ней бессильны. В ходе игры доска, расчерченная сеткой размерностью 19×19, почти целиком заполняется черными и белыми фишками — так называемыми камнями. Как любит подчеркивать гендиректор DeepMind Демис Хассабис, рассуждая о достижении AlphaGo, число возможных комбинаций камней на доске больше предполагаемого количества атомов во Вселенной. Хотя в го играют несколько тысячелетий, вероятность одинакового развития хотя бы двух поединков чрезвычайно (а в действительности исчезающе) мала. Иными словами, любая попытка заглянуть вперед и сделать расчет для всей полноты возможных будущих ходов, как в игре с более жесткими ограничениями, превосходит вычислительные возможности большинства даже самых мощных компьютеров.
Помимо высочайшего уровня сложности очевидно, что игра в го в огромной степени связана со способностью, которую можно назвать человеческой интуицией. Лучшие игроки зачастую теряются, когда их просят объяснить, почему они выбрали ту или иную стратегию, и говорят о «наитии», побудившем их положить камень на определенное место доски. Принято считать, что подобная деятельность выходит за пределы возможностей компьютера, — мы с полным на то основанием считаем ее защищенной от угрозы автоматизации, по крайней мере в обозримом будущем. Тем не менее го поддалась машинам самое меньшее на десятилетие раньше, чем это считали возможным большинство специалистов по компьютерным наукам.
Сначала команда DeepMind методом контролируемого обучения познакомила нейронные сети AlphaGo с 30 млн ходов, выделенных из подробных записей игр с участием лучших игроков. Затем она перешла на обучение с подкреплением, фактически предоставив системе возможность играть с собой. После тысяч смоделированных практических поединков и под постоянным давлением стимула к совершенствованию в виде вознаграждения глубокие нейронные сети AlphaGo постепенно достигли сверхчеловеческой результативности[146]. Триумфальные победы AlphaGo — над Ли Седолем в 2016 году и над игроком с самым высоким в мире рейтингом, Кэ Цзе, год спустя — снова всколыхнули все сообщество исследователей ИИ. Возможно, именно эти достижения вызвали в Китае, как выразился венчурный капиталист и писатель Ли Кайфу, «эффект „Спутника“», вследствие которого власти быстро приняли решение сделать страну лидером в области искусственного интеллекта[147].
Если контролируемое обучение опирается на гигантские массивы размеченных данных, то для обучения с подкреплением нужно огромное количество практических запусков, большинство которых заканчиваются полным провалом. Обучение с подкреплением особенно подходит для освоения игр, ведь алгоритмы могут быстро просмотреть больше матчей, чем один человек способен сыграть за всю свою жизнь. Этот метод можно применить и к задачам в реальном мире, поддающимся быстрому моделированию. В настоящее время самое важное практическое применение такой метод нашел в обучении систем управления беспилотными автомобилями. Прежде чем автопилоты, используемые в Waymo или Tesla, окажутся в настоящей машине или на дороге, они проходят обучение, в процессе которого постепенно набирают опыт, попадая в тысячи смоделированных катастроф. Когда алгоритм обучен и аварии остались в прошлом, программное обеспечение можно установить на реальные автомобили. Хотя этот процесс в целом эффективен, очевидно, что тинейджеру, которому только исполнилось 16 лет, на курсах по вождению незачем тысячу раз разбиваться в автокатастрофе для получения навыков управления автомобилем. Резкий контраст между обучением машин и человеческого мозга, которому для этого требуется несоизмеримо меньше данных, высвечивает как ограничения сегодняшних ИИ-систем, так и колоссальный потенциал их дальнейшего развития.
Тревожные сигналы
Пожалуй, самым захватывающим и важным в плане последствий десятилетием в истории искусственного интеллекта стали 2010-е годы. Помимо принципиального усовершенствования алгоритмов, используемых в ИИ, главным фактором прогресса было создание все более масштабных глубоких нейронных сетей на основе все более быстрых компьютеров, способных поглощать все возрастающие объемы обучающих данных. Стратегия «масштабирования» стала явной после состязания ImageNet в 2012 году, ознаменовавшего революцию в области глубокого обучения. В ноябре того же года передовица The New York Times познакомила с технологией глубокого обучения массового читателя. Статья, написанная репортером Джоном Маркоффом, заканчивалась словами Джеффа Хинтона: «Особенность этого подхода состоит в том, что он прекрасно масштабируется. Фактически его нужно лишь расширять и ускорять, чтобы он стал лучше. Теперь назад дороги нет»[148].
Однако становится все более очевидным, что этот основной двигатель прогресса начинает терять тягу. По оценке исследовательской организации OpenAI, потребности в вычислительных ресурсах, необходимых для передовых проектов в области ИИ, «растут в геометрической прогрессии» и удваиваются примерно каждые 3,4 месяца[149]. В декабре 2019 года в интервью журналу Wired вице-президент Facebook по ИИ Джером Пезенти предположил, что даже для такой богатой компании, как Facebook, финансирование этого процесса в конце концов станет неподъемным.
Если масштабировать глубокое обучение, оно показывает себя лучше и обретает способность решать более широкие задачи. Так что наращивать масштабы выгодно. Очевидно, однако, что поддерживать такой темп развития невозможно. Стоимость ведущих экспериментальных разработок каждый год удесятеряется. Сейчас она может доходить до сумм с семью нулями, но о девяти или десяти нулях речь не идет — это никому не по карману[150].
Далее Пезенти вынес суровый приговор надеждам на то, что масштабирование останется основным двигателем прогресса: «В какой-то момент мы упремся в стену. Во многих отношениях это уже произошло». Помимо финансовых ограничений масштабирования нейронных сетей существуют еще экологические соображения. Анализ, выполненный в 2019 году исследователями Массачусетского университета в Амхерсте, показал, что обучение очень большой глубокой системы может сопровождаться такими же выбросами углекислого газа, как и у пяти автомобилей за все время их эксплуатации[151].
Даже если удастся преодолеть финансовую и экологическую проблему, например путем