litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 338 339 340 341 342 343 344 345 346 ... 482
Перейти на страницу:
роль такой теории может претендовать концепция программ на базе больших языковых моделей [Large Language Model Programs][3303], [3304]. Скорее всего, в ближайшие годы в этой области появится множество новых проектов и стартапов.

В 2022 г. своим видением на развитие ИИ в ближайшее десятилетие поделился Ян Лекун[3305]. По его мнению, сейчас перед отраслью стоят три основных вызова:

    системы ИИ должны научиться представлять мир;

    системы ИИ должны научиться строить умозаключения и планы путями, совместимыми с обучением на основе градиентных методов оптимизации;

    системы ИИ должны научиться строить иерархии планов действий.

Лекун видит решение первой проблемы в развитии методов самообучения [self-supervised learning]. Их успешное применение будет означать, что системы ИИ способны создавать сложные модели мира. При этом, по мнению Лекуна, роль данных для обучения для следующего поколения систем машинного обучения уготована уже не языку и не изображениям, а видео. В настоящее время Meta (бывшая Facebook) прилагает много усилий для сбора видеоданных от первого лица. Впрочем, по словам Лекуна, видео с YouTube также являются подходящим учебным материалом.

Лекун считает, что системы искусственного интеллекта смогут из таких видеороликов узнать о физических основах нашего мира. А эти знания, в свою очередь, станут основой для развития способностей ИИ, связанных с реальным миром (например, хватание предметов или вождение автомобиля). Вообще весьма интересным является вопрос о том, можно ли создать универсальный искусственный интеллект путём машинного обучения, опирающегося только на имеющийся цифровой след человечества, или же для этого необходимо активное взаимодействие с окружающим миром при помощи физических аватаров (или хотя бы программных агентов, взаимодействующих с человеческим обществом при помощи Всемирной сети).

Опираясь на выученные представления, системы ИИ должны научиться рассуждать и действовать. Почему, с точки зрения Лекуна, важно при этом, чтобы в основе обучения лежали именно градиентные методы (вторая задача)? Именно градиентным методам мы во многом обязаны началом революции глубокого обучения. Возможность представить задачу в виде, который позволяет на каждом шаге оптимизации определять наиболее перспективное направление поиска, даёт возможность существенно сэкономить время для нахождения решения. Конечно, оптимум можно найти и путём случайных блужданий по пространству возможных решений, но вычислительные затраты при таком подходе обычно непомерно велики, особенно в случае задач, относящихся к такой сложной среде, как реальный мир. Хотя Лао-цзы и говорил: «Путь в тысячу ли начинается с первого шага», но важно, чтобы сделанные шаги приближали нас к цели, а не отдаляли от неё. Способность правильно определять направление легко может превратить бесцельное блуждание длиною в жизнь в получасовую прогулку. Однако определить правильное направление часто бывает непросто, и тут нам на помощь приходит способность находить промежуточные цели. Именно к ней отсылает нас третья проблема, обозначенная Лекуном: необходимость научить системы ИИ строить иерархии планов. Многие интеллектуальные задачи подобны огромному пирогу — съесть их можно только по частям. Но для этого важно освоить высокое искусство разделки пирога, в котором вполне преуспели люди и которое пока что с трудом даётся системам ИИ.

В конце июня 2022 г. на сайте OpenReview появилась первая версия статьи Лекуна под названием «Путь к автономному машинному интеллекту» [A Path Towards Autonomous Machine Intelligence][3306]. Эта статья обобщает и систематизирует взгляды учёного по обозначенному в заголовке вопросу. Конечно, многие из идей, изложенных в статье, не являются изобретением самого Лекуна. В обсуждении, возникшем под текстом статьи, можно, в частности, найти комментарии Юргена Шмидхубера, который проделал большую работу по установлению генезиса высказываемых Лекуном идей в истории современной науки. Некоторые из них появились уже в работах, написанных в 1980-е гг., некоторые изложены в работах самого Шмидхубера, написанных в последние три десятилетия. Однако будет неправильным сказать, что вклад Лекуна заключался только в сборе и систематизации идей. Например, Лекун сделал серьёзный шаг в сторону постановки конкретного вычислительного эксперимента, предложив в качестве шага к будущему AGI конкретные классы нейросетевых архитектур под не совсем благозвучными для русского уха названиями JEPA (Joint Embedding Predictive Architectures, Предсказывающие архитектуры [на основе векторных] вложений) и Hierarchical JEPA (Иерархические JEPA). В 2023 г. появились первые функциональные модели, относящиеся к классу JEPA, например созданная при участии самого Лекуна I-JEPA (Image-based JEPA; JEPA, базирующаяся на изображениях)[3307]. Лекун резюмирует масштабную задачу ИИ на следующее десятилетие в форме одного вопроса: как сформировать у машин способность выучивать модели, которые смогут оперировать неопределённостью и отражать реальный мир во всей его сложности?

Для Лекуна ответ начинается с методов самообучения. Действительно, сегодня это одна из самых горячих тем в области ИИ. Но давайте посмотрим и на другие важные аспекты развития технологий в этой сфере.

8.2 Облачные технологии и распределённое обучение

Вижу Землю!.. Различаю складки местности, снег, лес… Наблюдаю облака… Красиво. Красота!

Юрий Гагарин

Одним из не совсем очевидных последствий развития нейросетевых моделей стал ренессанс систем централизованной обработки данных. На рубеже тысячелетий мир, казалось, окончательно забыл об эпохе мейнфреймов. Разработчики и пользователи окончательно пересели на персоналки, а машинное время и оборудование стали пренебрежимо дешёвыми по сравнению с рабочей силой программистов. Мир, в котором месячная заработная плата оператора ЭВМ сопоставима с себестоимостью часа работы машины (вспомним рассуждения сторонников «программирования в содержательных обозначениях» в 1960-е гг.), стал чем-то легендарным и не имеющим никакого отношения к нынешним реалиям. Поэтому для многих оказалось полной неожиданностью, что некоторые модели теперь требуют для обучения такого оборудования, которое оказалось не по карману разработчикам, несмотря на беспрецедентно высокий уровень зарплат в отрасли. Особенно очевидно это стало с появлением моделей на основе трансформеров — приспособленность этой архитектуры к параллельным вычислениям позволила буквально «закидывать» некоторые задачи высокопроизводительным тензорным «железом». Впрочем, нейросетевые модели изначально были предназначены для параллельных вычислений. Неслучайно у истоков революции глубокого обучения стояла исследовательская группа PDP (Parallel distributed processing, то есть «Параллельные распределённые вычисления»).

Новой инкарнацией мейнфреймов стали облачные сервисы, предоставляющие пользователям доступ к высокопроизводительному тензорному оборудованию — к быстрым GPU и TPU. Google Cloud AI, Amazon Web Services (AWS), Azure от Microsoft, IBM Watson, российские GPU Super Cloud от #CloudMTS, Yandex DataSphere, ML Space от «Сбера» — все эти сервисы относятся к числу так называемых платформ MLaaS (Machine Learning as a Service, Машинное обучение как сервис). По сути дела, они обеспечивают совместный доступ к мощным аппаратным платформам на основе принципа разделения времени. Себестоимость обучения некоторых больших моделей машинного обучения перевалила за миллион долларов. Себестоимость обучения GPT-3, по оценкам экспертов, достигла

1 ... 338 339 340 341 342 343 344 345 346 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?