Шрифт:
Интервал:
Закладка:
В игре Breakout у игрока есть маленькая ракетка, с помощью которой он отбивает мяч, отскакивающий от стены цветных кирпичиков. Когда вы попадаете в кирпичик, он рассыпается, и вы выигрываете несколько очков. Но стоит вам несколько раз промахнуться по отскочившему мячу, игра заканчивается. В DeepMind Мних и его коллеги построили глубокую нейронную сеть, которая изучала все нюансы игры в Breakout путем множественных проб и ошибок, делая сотни попыток и внимательно отслеживая, какие движения оказываются удачными, а какие нет: этот метод называют «обучением с подкреплением». Эта нейронная сеть смогла освоить игру176 чуть более чем за два часа. За первые тридцать минут она усвоила основные движения – направляться к мячу и отбивать его в сторону кирпичной стены, – хотя еще не овладела ими. Через час она была уже достаточно искусной, чтобы отбивать мяч каждый раз и набирать очки с каждым ударом. А через два часа система выучила трюк, который вообще «взламывал» игру. Она отбивала мяч за кирпичную стену, где он попадал в почти замкнутое пространство и мог скакать туда-сюда, разбивая кирпич за кирпичом и зарабатывая очко за очком и при этом не возвращаясь к ракетке. Таким образом, система в конечном счете научилась играть с нечеловеческой скоростью и точностью.
Вскоре после того, как Мних и его команда создали эту игровую систему, компания DeepMind отправила видеодемонстрацию инвесторам из Founders Fund, в том числе Люку Носеку. Наряду с Питером Тилем и Илоном Маском Носек получил первоначальную известность как участник группы создателей PayPal – так называемой «мафии PayPal». Как сам Носек впоследствии рассказывал одному из своих коллег, вскоре после получения от DeepMind видео с играющим в классические аркадные игры искусственным интеллектом: они с Илоном Маском летели на частном самолете и вместе смотрели видео и обсуждали DeepMind, и их разговор услышал еще один миллиардер из Кремниевой долины, оказавшийся в том же самолете, – Ларри Пейдж. Именно так Пейдж узнал о компании DeepMind и начал обхаживать ее, и кульминацией этого обхаживания стал его прилет в Лондон. Пейдж хотел купить стартап уже на этой ранней стадии. Хассабис не был к этому готов. Ему всегда хотелось иметь свою собственную компанию. По крайней мере, так он говорил своим подчиненным. Он утверждал, что DeepMind останется независимой компанией на протяжении следующих двадцати лет, если не дольше.
* * *
Лифт, на котором Хинтон и другие «гуглеры» поднимались на верхний этаж, застрял. Пока они ждали, Хинтон беспокоился, какие чувства может вызвать это досадное происшествие у тех, кто дожидался их в офисах DeepMind, – многих из которых он знал. «Как неловко вышло», – думал он. Когда лифт наконец заработал и «гуглеры» добрались до верхнего этажа, их встретил Хассабис и провел в комнату для совещаний, где стоял длинный стол. Он не столько испытывал неловкость, сколько нервничал, опасаясь раньше времени раскрыть все секретные разработки своей лаборатории перед компанией, которая своими огромными ресурсами могла бы эти разработки резко ускорить. Он не хотел распахивать пресловутое кимоно, пока не был уверен, что хочет продать свою компанию – и что Google хочет ее купить. Когда все собрались в конференц-зале, он выступил с речью, в которой рассказал о миссии DeepMind. Затем несколько сотрудников DeepMind раскрыли по крайней мере часть тех исследований, которыми занималась лаборатория, как в теоретической, так и в практической плоскости. Гвоздем программы стал Влад Мних со своей машиной, играющей в Breakout.
Пока Мних демонстрировал свой проект, измученный Джефф Хинтон лежал на полу рядом со столом, за которым сидели все остальные. Время от времени Мних замечал, как Хинтон поднимает руку, когда хочет задать вопрос. Совсем как в Торонто, когда они были там вместе, думал Мних. Когда демонстрация закончилась, Джефф Дин поинтересовался, действительно ли речь идет о том, что система обучается играть в Breakout. Мних подтвердил. Система усваивает и закрепляет определенные игровые стратегии, потому что они приносят наибольшее вознаграждение – в данном случае наибольшее количество очков. Этой методикой – обучением с подкреплением – в Google предметно не занимались, но именно это было основным направлением исследований в DeepMind. Шейн Легг увлекся этой концепцией после того, как его научный руководитель в постдокторантуре опубликовал статью, в которой утверждалось, что примерно так же работает человеческий мозг. Компания привлекла длинный список исследователей, которые специализировались на этой идее, включая Дэвида Сильвера. Именно обучение с подкреплением, по мнению Алана Юстаса, позволило DeepMind построить систему, которая стала первой реальной попыткой создания искусственного интеллекта общего назначения. «Они достигали сверхчеловеческой результативности примерно в половине игр, и в некоторых случаях успех просто поражал воображение, – говорит он. – Машине удавалось выработать стратегию игры, которая обеспечивала просто убийственный результат».
После демонстрации игр Шейн Легг выступил с докладом, основанным на его диссертации, где он описал разновидность программных агентов, или ботов, которые способны учиться решать новые задачи в любой среде. Влад Мних и его команда создали программы, которые могли обучаться новым правилам поведения в таких играх, как Breakout и Space Invaders, и то, что предложил Легг, было расширением этой деятельности за пределы игровой сферы – в более сложные виртуальные миры, а также и в реальный мир. Подобно тому как бот может научиться ориентироваться в игре Breakout, робот-слуга может научиться ориентироваться в гостиной или беспилотный автомобиль может научиться ориентироваться в населенном пункте. И примерно таким же образом один из таких ботов мог бы научиться ориентироваться в английском языке. Это гораздо более сложные проблемы. Игра – это замкнутая вселенная, где награды четко определены. Есть старт, и есть финиш. Реальный мир намного сложнее, и награды в нем труднее определить, но это тот путь, который компания DeepMind наметила себе. «Диссертация Шейна, – говорит Юстас, – заложила фундамент того, чем они занимались».
Это была цель на далекое будущее, но этот долгий путь складывается из множества маленьких шагов, которые найдут практическое применение в ближайшей перспективе. На глазах у «гуглеров» Алекс Грейвс, американец, выросший в Шотландии, продемонстрировал один из таких «шагов»: систему, которая писала «от руки». Анализируя паттерны, определяющие объект, нейронная сеть может научиться распознавать его. Если она понимает эти паттерны, она также