Шрифт:
Интервал:
Закладка:
Со вторым возражением тесно связано третье — обвинение генеративных моделей в подражательности. По всей видимости, это мнение сформировалось под влиянием сообщений в прессе об успехах машин в деле генерации изображений и текстов, стилизованных под произведения различных известных авторов. Конечно, создание собственного узнаваемого стиля — важная творческая задача, своего рода метатворчество, но вряд ли у человека есть в решении этой задачи какие-то радикальные преимущества перед машиной. На самом деле при создании стиля художники и литераторы всё равно опираются на свои знания и опыт, то есть новый стиль — это также комбинация «пройденного», просто комбинируются более глубинные признаки. Обычно генеративные модели, способные создавать произведения, стилизованные под разных авторов, выучивают для каждого из авторов и/или каждого из произведений некоторые стилистические векторы. Например, в работах авторов «Нейронной обороны» это эмбеддинги текстов и их авторов; в моделях, основанных на вариационных автокодировщиках, — соответствующие латентные векторы. Стилистические векторы составляют «пространство стилей», и задача создания нового стиля технически представляет собой выбор некоторой точки в этом пространстве. Творческий путь автора представляет собой траекторию, которую проходят в «пространстве стилей» его произведения с течением времени. Я думаю, что в ближайшем будущем мы увидим немало исследований, посвящённых влиянию на индивидуальный стиль различных событий в жизни авторов. Создание машиной нового творческого стиля — задача очень простая, если единственным требованием к этому стилю является его новизна. С этой задачей вполне справится генератор псевдослучайных чисел, выбирающий случайную точку в стилистическом пространстве. На деле проблема заключается не столько в новизне, сколько в связи этого стиля с социальной действительностью. Именно эта связь делает тот или иной стиль востребованным в обществе. Поэтому генеративным моделям скорее нужна не новая степень новизны, а новая степень «социализации». Но и в этой задаче, по-моему, нет ничего принципиально неразрешимого — современные системы машинного обучения в некоторой степени уже «социальны», поскольку социальная практика находит отражение в прецедентах, включаемых в обучающие выборки.
Но вернёмся к вопросу о качестве результатов работы моделей.
По всей видимости, единственной более-менее адекватной оценкой творчества машины является уже упоминавшийся нами визуальный тест Тьюринга: можно попросить людей оценивать компьютерные творения в слепом тесте, в котором они будут сравниваться с признанными шедеврами или фотореалистичными изображениями.
Конечно, существуют и способы автоматизированной оценки качества сгенерированных изображений. Например, весьма популярна «оценка на базе Inception» [Inception score][2761], основанная на оценке энтропии распределения значений в выходном слое сети Inception, когда на её вход подаётся сгенерированное изображение. Авторы этой метрики сообщают в своей работе, что оценка на базе Inception сильно коррелирует с оценкой качества изображений людьми, хотя и не приводят ни численной оценки этой корреляции, ни данных об экспериментальной проверке этого заявления. Потенциальная проблема Inception score заключается в том, что при желании генеративная модель может быть обучена таким образом, чтобы целенаправленно максимизировать подобную оценку, при этом качество изображений с точки зрения людей может и не расти. Мы подробнее расскажем об этой проблеме в разделе, посвящённом актуальным проблемам глубокого обучения.
6.6.8 Машина как художник. Генеративно-состязательные сети и ганизм
На деле «творческие способности» генеративных моделей в начале 2010-х гг. были по большей мере весьма скромными. Сгенерированное порно скорее пугало, а не возбуждало, сгенерированные «фотореалистичные» лица напоминали не шедевры, а неудачные попытки их реставрации и, казалось, молили: «Убей меня!» Радикально решить эти проблемы удалось лишь во второй половине 2010-х гг., при этом существенный прогресс наметился в 2014 г. с выходом на сцену генеративно-состязательных сетей (Generative Adversarial Networks, GAN). При этом даже появился термин «ганизм» [GANism, или просто ganism] — направление в искусстве, основанное на применении генеративно-состязательных сетей.
Что нужно человеку-художнику для развития мастерства? Часто нужен кто-то, кто критически оценит очередной образец творчества, подскажет направление дальнейшего совершенствования навыка. Конечно, для развития алгоритмического художника можно было бы привлечь критиков-людей, однако это медленно и дорого. А нельзя ли роль критика поручить другой нейронной сети? Сеть-генератор будет учиться генерировать изображения, а сеть-критик (её называют «дискриминатор») будет учиться отличать созданные изображения от настоящих. В ходе этого соревнования сеть-генератор в конце концов может научиться создавать изображения, которые критик не сможет отличить от реальных или по крайней мере будет отличать не слишком уверенно. Именно эта состязательная парадигма легла в основу нового поколения генеративных моделей.
Детальное описание этой концепции, а также сам термин «генеративно-состязательные сети» появились впервые в знаменитой одноимённой работе[2762] Яна Гудфеллоу и его соавторов, в числе которых был и уже знакомый нам Йошуа Бенджио.
Гудфеллоу получил степени бакалавра и магистра в Стэнфордском университете под руководством Эндрю Ына, а затем защитил диссертацию в Монреальском университете под руководством Бенджио и Аарона Курвилля. После защиты Гудфеллоу присоединился к команде GoogleBrain, затем покинул Google, чтобы присоединиться к недавно основанной OpenAI, а затем вновь вернулся в Google в марте 2017 г. Перу Гудфеллоу, Бенджио и Курвилля принадлежит одна из наиболее популярных книг о методах глубокого обучения. В 2017 г. Гудфеллоу был упомянут в рейтинге MIT Technology Review «35 новаторов моложе 35 лет», а в 2019-м — включён в список «100 глобальных мыслителей» по версии Foreign Policy. В том же году он покинул Google, чтобы занять пост директора по машинному обучению Группы специальных проектов в компании Apple.
Интересно, что идея использовать нейронную сеть в роли художественного критика нашла воплощение не только в концепции генеративно-состязательных сетей, но и при решении других задач, связанных с изобразительным искусством. Например, нейросетевые модели регулярно применяют для определения авторства художественных произведений. Совсем недавно нейронные сети помогли разрешить вопрос о создателе приписываемой Рубенсу картины «Самсон и Далила» (спойлер: картина предположительно является подделкой)[2763].
В феврале 2018 г. французский коллекционер живописи Николя Лагро-Лассер, известный большой коллекцией городского искусства (Shepard Fairey, Ivader, Banksy, Swoon), приобрёл на аукционе Sotheby’s картину под названием «Граф Белами» (Le Comte de Belamy), созданную моделью на основе генеративно-состязательных сетей. В самом названии картины кроется «пасхальное яйцо» — фамилия Belamy является дословным переводом на французский фамилии Goodfellow. В качестве подписи художника на картине красуется математическая формулировка генеративно-состязательного подхода.
Рис. 154. Созданная нейросетью картина «Граф Белами» с формулой вместо подписи художника
Впрочем, идеи, напоминающие парадигму GAN’ов, высказывались и ранее. Ещё в 1992 г. свет увидела статья изобретателя LSTM Юргена Шмидхубера под названием «Обучение факториальным