Шрифт:
Интервал:
Закладка:
Всё это, конечно, не умаляет достижений исследователей из Google. После того как компания опубликовала подробное описание алгоритма и выложила в открытый доступ исходный код DeepDream, появилось множество инструментов в виде веб-сервисов, мобильных приложений и программ для персональных компьютеров, позволивших широким народным массам производить эксперименты с собственными изображениями.
Многие другие исследовательские группы занялись созданием собственных улучшенных вариантов DeepDream. Некоторые из этих экспериментов были весьма курьёзными. Например, энтузиаст машинного обучения Габриэль Го, ныне сотрудник OpenAI, использовал для генерации алгоритмических галлюцинаций нейронную сеть, созданную группой исследователей из компании Yahoo!, для обнаружения «взрослого» изобразительного контента. В итоге получился генератор довольно криповых порнографических фантазий[2759].
Рост интереса к алгоритмической парейдолии подстегнул дальнейшие исследования в этой области. В результате появилось множество улучшений исходного подхода (например, были предложены различные способы регуляризации, позволяющие улучшать те или иные качества итоговых изображений), а также были расширены границы его применения. В частности, развитие получили два важных направления в области генеративных моделей — перенос (художественного) стиля [(Artistic) Style Transfer] и семантическая манипуляция изображениями [Semantic Image Manipulation]. Поговорим сначала о первом из них.
Спустя примерно месяц после публикации материалов по DeepDream на сайте научных препринтов ArXiv.org появилась статья исследователей из Тюбингенского университета (Eberhard Karls Universität Tübingen) Леона Гатиса, Александра Эккера и Маттиаса Бетге под названием «Нейронный алгоритм художественного стиля» (A Neural Algorithm of Artistic Style)[2760].
При обучении свёрточных сетей распознаванию объектов они, как уже было отмечено ранее, формируют иерархию признаков распознаваемых объектов, начиная от наиболее простых, конкретных, относящихся к картам признаков, расположенным ближе ко входному слою сети, и заканчивая сложными, абстрактными, распознаваемыми более глубокими слоями. Ключевым выводом статьи исследователей из Тюбингена стало то, что представления содержания и стиля в свёрточной нейронной сети разделимы (по крайней мере отчасти). То есть существует возможность управлять обоими представлениями независимо друг от друга для создания новых изображений, в которых происходит замена оригинальной содержательной или стилевой составляющей на другую (например, позаимствованную из другого изображения). Более того, Гатису и его коллегам удалось создать алгоритм, способный выполнять подобные манипуляции.
Идея данного алгоритма основана на том, что в структуре обученной сети за представление содержания отвечают карты признаков с небольшим разбросом значений для объектов одного и того же класса. Например, почти все изображения кошек будут содержать в себе глаза, усы, лапы и хвост, поэтому карты признаков, выявляющие подобные содержательные признаки, будут обладать сравнительно малой степенью вариации по сравнению с картами, выявляющими, например, текстуру или цвет меха.
Поскольку в большинстве случаев алгоритм не способен полностью разделить содержание и стиль изображения, то при синтезе картинки, которая объединяет содержимое одного изображения со стилем другого, обычно не существует решения, которое идеально соответствует обоим ограничениям. Поэтому авторы предусмотрели возможность регулировки «акцента модели», то есть меры, с которой модель предпочитает передать стиль изображения в ущерб содержанию.
Рис. 152. Перенос художественного стиля моделью Леона Гатиса и его коллег
Поскольку учёные из Тюбингена, как и их коллеги из Google, опубликовали исходный код своей модели, то вскоре появилось множество улучшенных версий исходного метода, а также доступные публике инструменты, позволяющие производить собственные опыты по переносу стиля. Как следствие, в соцсетях и электронных медиа вскоре оказалось большое количество продуктов этих опытов (причём не только для статических изображений, но и для видео).
Рис. 153. Другие примеры переноса художественного стиля
Если при помощи свёрточных сетей можно изменять стиль изображения, то нельзя ли осуществлять более тонкие манипуляции, например подменять отдельные признаки? Разумеется, модели для выполнения подобных действий вскоре появились. Однако, прежде чем говорить о них, давайте зададимся одним интересным вопросом: можно ли считать полноценными творениями, оригинальными произведениями искусства галлюцинации DeepDream или изображения, полученные в результате переноса стиля? Если ответ на этот вопрос будет положительным, то нам придётся признать за машинами наличие у них способности творить. И конечно же, такой вывод является крайне некомфортным для разного рода критиков научно-технического прогресса и тех, кто считает, что успехи вычислительных моделей способны нанести ущерб человеческой гордости. Таких людей мы будем в шутку называть человеческими шовинистами.
Прежде чем рассуждать о возможностях моделей, нужно отметить, что понятие «оригинальность произведения» определено достаточно слабо и в отношении продуктов творчества людей. Является ли оригинальным произведением перерисовка шедевра в ином стиле? Является ли оригинальной работа ученика, подражающего учителю? Вообще в какой мере влияние учителя на творчество ученика делает произведения последнего неоригинальными? Мнение об оригинальности произведения нередко субъективно, и в ряде случаев за ним не стоит даже шаткого общественного консенсуса. Словом, между произведениями, повсеместно признанными оригинальными, и произведениями бесспорно подражательными лежит большая серая зона. Но мы всё же попробуем разобраться в этом вопросе чуть более детально — ведь раз люди нередко рассуждают об оригинальности творчества, то значит, они вкладывают в это понятие некий смысл.
Итак, какого рода возражения могут выдвинуть человеческие шовинисты (и просто скептики) в отношении способности нейронных сетей создавать оригинальные произведения?
Ну, во-первых, можно отметить, что ни DeepDream, ни модель исследователей из Тюбингена не оригинальны. На вход этих моделей подаются готовые изображения. При всей своей кажущейся серьёзности это возражение при более детальном рассмотрении не выглядит особенно основательным. На вход этих моделей можно подать совершенно случайный набор точек. В результате DeepDream сгенерирует случайные галлюцинации, а модель для переноса стиля создаст абстрактную картину в заданном стиле. Кроме того, существуют и более продвинутые методы порождения изображений с нуля, чем просто генерация случайного набора цветных точек. Например, мы уже упоминали автокодировщики. Обучив свёрточный автокодировщик на большом наборе изображений, можно затем подать на вход декодера случайно сгенерированное латентное представление и в результате получить совершенно новое изображение, напоминающее изображения из обучающей выборки (но в общем случае не идентичное ни одному из них).
Во-вторых, можно обвинить нейронные сети в «отсутствии замысла», однако понятие замысла плохо формализуемо. Этот аргумент напоминает знаменитую «китайскую комнату» Сёрля. Откуда мы знаем, что исходные посылки художника к созданию шедевра являются «настоящим» замыслом, а случайно сгенерированное латентное пространство свёрточного автокодировщика «ненастоящим»? Ведь сигналы в естественной нейронной сети тоже могут быть выражены в виде наборов чисел. Кто-то может сказать, что художник опирается на определённый жизненный опыт,