litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 290 291 292 293 294 295 296 297 298 ... 482
Перейти на страницу:

Рис. 147. Примеры раскраски изображений (слева направо): чёрно-белое изображение, вариант раскраски от модели Райана Даля, картинка в своих настоящих цветах

Впрочем, ранние модели для нейросетевой раскраски изображений обладали и рядом недостатков. Например, объекты, чей цвет очевидным образом определить было нельзя (например, цвет одежды людей может быть практически каким угодно, как и, например, цвет автомобилей и т. п.), часто приобретали некий среднестатистический «серо-буро-малиновый» цвет, равноудалённый от цветов соответствующих объектов, представленных в обучающей выборке. Возникали и другие дефекты раскраски, что стало мотивацией для дальнейших исследований в этой области.

В 2017 г. свет увидела новая работа[2750] Даля, выполненная в соавторстве с его новыми коллегами из Google (в 2016 г. Райан присоединился[2751] к Google Brain Residency Program). В работе была представлена модель под названием PixColor, лишённая многих недостатков своей предшественницы. Новый метод был основан на наблюдении, что задача автоматической раскраски достаточно проста для нейронной сети в случае изображений с низким разрешением. Поэтому авторы сначала уменьшали размер картинки, затем при помощи свёрточной нейронной сети производили раскраску полученного уменьшенного изображения, а затем использовали вторую свёрточную сеть для раскраски исходного полноразмерного изображения с использованием цветовой карты, полученной первой сетью для маленькой версии картинки.

Для оценки качества раскраски создатели модели использовали методику, получившую громкое название «визуальный тест Тьюринга» (Visual Turing Test). Суть этого метода заключается в том, что людям-оценщикам предлагают пары изображений, при этом одно из изображений в этой паре обесцвечено, а затем раскрашено при помощи PixColor, а другое сохраняет первоначальные, «естественные» цвета. Оценщик должен выбрать тот вариант раскраски, который он считает более правильным. По итогам теста вычисляется доля случаев, в которых оценщики предпочли раскрашенное изображение. Эту долю авторы назвали VTT‑баллом [VTT score]. В ходе нескольких сессий оценки (с разными инициализациями генератора псевдослучайных чисел) PixColor получила VTT-балл от 33,2 ± 1,0% до 35,4 ± 1,0%, что на несколько процентных баллов выше результатов, продемонстрированных другими методами раскраски.

Рис. 148. Пример раскраски изображений (слева направо): обесцвеченное изображение,

три варианта раскраски от PixColor, оригинальные цвета

В том же году команда исследователей из Калифорнийского университета в Беркли под руководством профессора Алексея Эфроса представила[2752] свою нейросетевую модель для раскраски изображений. В отличие от Даля и его коллег специалисты из Беркли стремились создать систему, способную выполнять раскраску, используя подсказки от людей. При помощи таких подсказок можно было разрешать возникающие при раскраске неопределённости.

Рис. 149. Пример раскраски изображений моделью Алексея Эфроса

В наши дни продолжается быстрое развитие моделей для автоматической и полуавтоматической раскраски изображений. За 2020–2021 гг. только в реестре PapersWithCode появилось 82 статьи, посвящённые этой области (для 38 из них доступен исходный код моделей)[2753]. Даже поверхностный обзор этих работ занял бы непростительно много места.

Ну хорошо, допустим, модели глубокого обучения более-менее справились с задачей раскраски изображений. Но способны ли они перейти на новый уровень визуального творчества — скажем, выполнить стилизацию изображения в соответствии с манерой известного художника?

В 2015 г. социальные сети захлестнула волна картинок, на которых привычные предметы превращались в различные части собачьих морд: носы, глаза, лапы. Виной этому стала модель под названием DeepDream, созданная разработчиком из Google Александром Мордвинцевым.

Рис. 150. Пример «собачьих» метаморфоз изображения в результате работы модели DeepDream

Метаморфозы, которые изображения претерпевали при помощи DeepDream, быстро окрестили «алгоритмической парейдолией». Слово «парейдолия» происходит от древнегреческих слов παρά — рядом, около; отклонение от чего-либо и εἴδωλον — изображение; и означает разновидность зрительных иллюзий, заключающихся в формировании иллюзорных образов на основе деталей реального объекта. Типичный пример парейдолической зрительной иллюзии — восприятие тёмных пятен на видимой поверхности Луны в качестве фигуры зайца или кролика. Считается, что именно эта иллюзия послужила основой для появления в фольклоре разных народов истории о лунном зайце (или кролике). Другой известный пример парейдолии — лицо Марса — образованное причудливой игрой света и тени подобие человеческого лица на ранних фотографиях поверхности Марса.

Склонность человека узнавать знакомые образы издревле популярна у художников. Например, миланский художник XVI в. Джузеппе Арчимбольдо создал сразу несколько картин, основанных на этом эффекте («Времена года», «Четыре стихии», «Повар», «Юрист»). На них портреты людей при ближайшем рассмотрении оказываются нагромождением различных предметов, растений и животных.

Рис. 151. Четыре картины Джузеппе Арчимбольдо

В DeepDream после обучения сеть используется в обратном направлении, для коррекции изображения, причём таким образом, чтобы увеличить значение на выходе выбранного выходного нейрона (например, «нейрона собаки», т. е. нейрона выходного слоя сети, соответствующего метке класса «собака»). Эта процедура похожа на метод обратного распространения ошибки, однако корректируются не веса, а значения на входе каждого из нейронов. В результате всё, что в исходном изображении «напоминало» сети собаку, начинает «напоминать» её ещё больше, то есть само изображение как бы увеличивает «степень собачности».

Сама идея подобного использования нейросетевых моделей появилась ещё во времена первых успехов свёрточных нейронных сетей. Так, в 1988 г. на Международной конференции IEEE по нейронным сетям (IEEE 1988 International Conference on Neural Networks) была представлена работа Джона Льюиса под названием «Создание путём переработки: творческая парадигма для нейронных сетей, обучаемых методом градиентного спуска» (Creation By Refinement: A Creativity Paradigm for Gradient Descent Learning Networks)[2754]. Статья описывает «парадигму для создания новых экземпляров класса объектов, распознаваемых обученной при помощи метода градиентного спуска ассоциативной сети. Подход состоит из фазы обучения, на которой сеть учится идентифицировать объекты желаемого класса, за которой следует простой алгоритм синтеза, в котором полученное случайным образом „творение“ уточняется путём поиска методом градиентного спуска, дополняющим метод, используемый при обучении».

Удивительно, что в наши дни профессор Льюис известен не как основатель инцепционизма [inceptionism] (так сегодня нередко называют этот подход в искусстве), а как «самый терпеливый человек интернета». Дело в том, что он является владельцем учётной записи @johnlewis в Twitter, и ежегодно сотни пользователей со всего мира по ошибке отправляли ему твиты, предназначенные для сети британских универмагов John Lewis & Partners или члена Палаты представителей США от Джорджии Джона Льюиса. Профессор Льюис с присущими ему юмором и вежливостью перенаправлял отправленные ему сообщения (которых становилось особенно много в канун Рождества), чем заслужил у пользователей соцсети славу самого терпеливого человека в интернете[2755], [2756], [2757]. В 2014 г. сеть универмагов прислала Льюису подарочный набор (игрушечного пингвина

1 ... 290 291 292 293 294 295 296 297 298 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?