Шрифт:
Интервал:
Закладка:
Особенно тяжелая ситуация сложилась в 1970-х и в начале 1980-х годов. Ян Лекун, считающийся одним из главных идеологов глубокого обучения, сказал мне, что в тот период исследование нейронных сетей было «не просто в загоне»: «Статью, в которой хотя бы упоминались „нейронные сети“, сразу же заворачивали»[128]. Тем не менее некоторые исследователи сохраняли верность коннективизму. Многие из них имели базовое образование не в области компьютерных наук, а психологии или когнитивистики и хотели создать математическую модель работы мозга. В начале 1980-х годов Дэвид Румельхарт, профессор психологии из Калифорнийского университета в Сан-Диего, создал метод так называемого обратного распространения, остающийся основным алгоритмом обучения в сегодняшних многослойных нейронных сетях. Румельхарт, Рональд Уильямс, ученый в области компьютерных наук из Северо-Восточного университета, и Джеффри Хинтон, в то время работавший в Университете Карнеги — Меллона, описали возможное использование этого алгоритма в статье, опубликованной в журнале Nature в 1986 году, — теперь она считается одной из самых важных научных работ об искусственном интеллекте[129]. Алгоритм обратного распространения стал фундаментальным концептуальным прорывом, в конечном счете обеспечившим господство глубокого обучения в области ИИ, но потребовались десятилетия, прежде чем компьютеры стали достаточно мощными для полноценного использования этого подхода. Джеффри Хинтон, в 1981 году молодой исследователь, работавший с Румельхартом в Калифорнийском университете в Сан-Диего[130], впоследствии стал, пожалуй, самой видной фигурой в революции глубокого обучения.
К концу 1980-х годов начали появляться примеры практического применения нейронных сетей. Ян Лекун, в то время исследователь в Bell Labs компании AT&T, использовал алгоритм обратного распространения в новой архитектуре, так называемой сверточной нейронной сети. В сверточных сетях искусственные нейроны соединены по образцу зрительной коры головного мозга млекопитающих, и эти сети предназначались в первую очередь для распознавания визуальных образов. Система Лекуна могла распознавать рукописные символы, и к концу 1990-х годов благодаря сверточным нейронным сетям машины AT&T научились понимать цифры, написанные на банковских чеках.
Двухтысячные годы стали эпохой расцвета «больших данных». Фирмы и государственные структуры получили возможность собирать и анализировать информацию в масштабах еще недавно немыслимых, и стало очевидно, что общий объем данных, генерируемых в мире, продолжит расти в геометрической прогрессии. Этот поток данных в сочетании с новейшими алгоритмами машинного обучения открыл путь для революции в области искусственного интеллекта.
Один из самых значимых массивов данных появился благодаря усилиям молодого профессора компьютерных наук из Принстонского университета. Фей-Фей Ли, работавшая над компьютерным зрением, поняла: чтобы машины смогли ориентироваться в реальном мире, нужен всеобъемлющий комплекс обучающих материалов, включающий правильно классифицированные образцы вариантов внешнего вида людей, животных, зданий, транспортных средств, предметов — практически всего, что нас окружает. За два с половиной года она классифицировала больше 3 млн изображений из 5000 с лишним категорий. Эту работу пришлось выполнить вручную; только человек мог установить верную связь между фотографией и описанием. Поскольку нанять хотя бы магистрантов для выполнения этой огромной работы было непозволительно дорого, команда Ли обратилась к Mechanical Turk, только что созданной Amazon платформе краудсорсинга для задач в области информации, которая нашла дистанционных исполнителей в основном в странах с низким уровнем оплаты труда[131].
Описание проекта Ли ImageNet было опубликовано в 2009 году, и скоро он стал незаменимым ресурсом для исследователей в области машинного зрения. С 2010 года Ли проводит ежегодное состязание для команд из университетов и корпоративных исследовательских лабораторий, выставляющих на конкурс алгоритмы для классификации изображений из этого огромного комплекса данных. Конкурс ImageNet Large Scale Visual Recognition Competition, состоявшийся два года спустя, в сентябре 2012 года, пожалуй, знаменует переломный момент для технологии глубокого обучения[132]. Джефф Хинтон совместно с Ильей Суцкевером и Алексом Крижевским из исследовательской лаборатории Торонтского университета представил многослойную сверточную нейронную сеть, которая с большим отрывом победила конкурирующие алгоритмы, убедительно продемонстрировав, что технология на основе глубоких нейронных сетей стала в полной мере практической. Триумф команды Хинтона вызвал большой резонанс в сообществе исследователей ИИ и показал, насколько продуктивно соединение огромных баз данных с мощными нейронными алгоритмами. Вскоре этот симбиоз обеспечил достижения, казавшиеся всего несколько лет назад возможными исключительно в научной фантастике.
Эту краткую справку можно назвать классической историей глубокого обучения. Особенно масштабными фигурами в ней представляются лауреаты премии Тьюринга 2018 года Джефф Хинтон, Ян Лекун и Йошуа Бенджио, профессор Монреальского университета, которых нередко называют крестными отцами глубокого обучения. (Иногда их величают даже крестными отцами ИИ, что ярко демонстрирует безграничное господство в этой области глубокого обучения, оттеснившего символические подходы, первоначально находившиеся в центре внимания.) Впрочем, есть и другая версия данной истории. Как и в большинстве других научных областей, конкуренция за признание здесь невероятно остра, и это немудрено из-за ощущения, что прогресс в создании ИИ уже перешел тот пороговый уровень, за которым следует подлинное историческое преобразование как общества, так и экономики.
Самым активным сторонником альтернативной истории является Юрген Шмидхубер, содиректор Института исследований искусственного интеллекта Далле Молле в Лугано, Швейцария. В 1990-х годах Шмидхубер со своими студентами создал нейронную сеть особого типа, реализовавшую «долгую краткосрочную память» (long short-term memory, LSTM). LSTM позволяет сетям «помнить» данные из прошлого и включать их в текущий анализ. Эта способность оказалась принципиально важной в таких областях, как распознавание речи и языковой перевод, где контекст, созданный предыдущими словами, оказывает громадное влияние на точность. Такие компании, как Google, Amazon и Facebook, активнейшим образом используют LSTM, и Шмидхубер считает, что именно работа его команды, а не более знаменитых исследователей из Северной Америки обусловила прогресс в создании ИИ.
В электронном письме, присланном мне вскоре после издания книги «Архитекторы интеллекта» — в которую я включил краткий обзор классической истории глубокого обучения, Шмидхубер написал: «Многое из того, о чем вы говорите, вводит в заблуждение, что весьма печально!»[133]. По его мнению, истоки глубокого обучения находятся не в Соединенных Штатах или Канаде, а в Европе. Первый алгоритм обучения для многослойных нейронных сетей, по его словам, был описан украинским исследователем Алексеем Григорьевичем Ивахненко[134] в 1965 году, а алгоритм обратного распространения предложил в публикации 1970 года — за полтора десятилетия до появления знаменитой статьи Румельхарта — финский студент Сеппо Линнайнмаа. Очевидно разочарование Шмидхубера из-за недостаточного признания его собственных