Шрифт:
Интервал:
Закладка:
Чтобы предотвратить такое подглядывание данных, но в то же время позволить участникам соревнования ImageNet проверять, насколько хорошо работают их программы, организаторы ввели правило, в соответствии с которым каждая команда могла загружать результаты на тестовый сервер не более двух раз в неделю. Таким образом они ограничили обратную связь, которую команды получали в ходе тестовых прогонов.
Великая битва на конкурсе ImageNet 2015 года разгорелась за доли процента – казалось бы, пустяшные, но потенциально весьма прибыльные. В начале года команда Baidu объявила, что точность (топ-5) их метода на тестовом множестве ImageNet составила невиданные 94,67 %. Но в тот же день команда Microsoft объявила, что ее программа показала еще более высокую точность – 95,06 %. Через несколько дней команда конкурентов из Google сообщила об использовании немного другого метода, который справился с задачей еще лучше и показал результат 95,18 %. Этот рекорд продержался несколько месяцев, пока команда Baidu не сделала новое заявление: она усовершенствовала свой метод и может похвастаться новым рекордом – 95,42 %. Пиарщики Baidu широко разрекламировали этот результат.
Но через несколько недель организаторы соревнования ImageNet сделали краткое объявление: “В период с 28 ноября 2014 года по 13 мая 2015 года команда Baidu использовала не менее 30 учетных записей и загрузила результаты на тестовый сервер не менее 200 раз, значительно превысив существующее ограничение в две загрузки в неделю”[116]. Иными словами, команда Baidu попалась на подглядывании данных.
Двести прогонов позволили команде Baidu определить, какие корректировки необходимо внести в программу, чтобы научить ее лучше всего справляться с этим тестовым множеством и набрать доли процента точности, необходимые для победы. В наказание Baidu отстранили от участия в конкурсе 2015 года.
Надеясь смягчить удар по репутации, Baidu быстро принесла извинения, а затем возложила ответственность на нерадивого сотрудника: “Мы выяснили, что руководитель группы велел младшим инженерам делать более двух загрузок в неделю, нарушая действующие правила соревнования ImageNet”[117]. Сотрудника быстро уволили из компании, хотя он утверждал, что не нарушал никаких правил.
Несмотря на то что эта история – всего лишь любопытное примечание к истории глубокого обучения в сфере компьютерного зрения, я рассказала ее, чтобы показать, что соревнование ImageNet стало считаться главным символом прогресса в компьютерном зрении и ИИ в целом.
Если забыть о жульничестве, прогресс на ImageNet продолжился. Последний конкурс состоялся в 2017 году, и точность топ-5 у победителя составила 98 %. Как отметил один журналист, “сегодня многие считают ImageNet решенной задачей”[118] – по крайней мере по классификации. Специалисты переходят к новым эталонным данным и новым задачам, в частности к таким, которые предполагают интеграцию зрения и языка.
Что же позволило сверточным нейронным сетям, которые в 1990-х годах казались тупиковой ветвью развития, вдруг захватить лидерство в соревновании ImageNet и занимать доминирующее положение в сфере компьютерного зрения все последние годы? Оказывается, недавний успех глубокого обучения связан не столько с новыми прорывами в ИИ, сколько с доступностью огромных объемов данных (спасибо, интернет!) и аппаратного обеспечения для очень быстрых параллельных вычислений. Вкупе с совершенствованием методов тренировки эти факторы позволяют всего за несколько дней натренировать сети, имеющие более сотни слоев, на миллионах изображений.
Сам Ян Лекун удивился тому, как быстро изменилось отношение к его сверточным нейронным сетям: “Очень редко технология, известная на протяжении 20–25 лет и почти не претерпевшая изменений, становится наилучшей. Скорость ее принятия людьми поражает воображение. Я никогда прежде не видел ничего подобного”[119].
Когда ImageNet и другие крупные наборы данных предоставили сверточным нейронным сетям огромное количество тренировочных примеров, необходимых им для хорошей работы, компании неожиданно получили возможность применять компьютерное зрение совершенно по-новому. Как отметил Блез Агуэра-и-Аркас из Google, “это напоминало золотую лихорадку – один и тот же набор технологий применяли для решения множества задач”[120]. Используя сверточные нейронные сети, натренированные с помощью глубокого обучения, системы поиска картинок Google, Microsoft и других компаний смогли значительно усовершенствовать функцию “найти похожие изображения”. В Google создали фотохостинг, присваивающий фотографиям метки, которые описывают объекты в кадре, а сервис Google Street View смог распознавать и затирать адреса и номерные знаки на изображениях. Появилось множество приложений, которые позволили смартфонам распознавать объекты и лица в реальном времени.
Компания Facebook разметила загруженные вами фотографии именами ваших друзей и зарегистрировала патент на классификацию эмоций, запечатленных на лицах людей на загруженных фотографиях. В Twitter разработали фильтр, выявляющий в твитах порнографические изображения, а несколько фото- и видеохостингов стали применять инструменты для выявления изображений, связанных с террористическими группами. Сверточные нейронные сети можно применять к видео и использовать в беспилотных автомобилях для распознавания пешеходов. С их помощью можно читать по губам и классифицировать жесты. Кроме того, они могут диагностировать рак груди и кожи по медицинским снимкам, определять стадию диабетической ретинопатии и помогать врачам планировать лечение рака простаты.
Это лишь несколько примеров множества существующих (или будущих) вариантов коммерческого применения СНС. Вполне вероятно, что любое современное приложение компьютерного зрения, которое вы используете, работает на базе СНС. Более того, велика вероятность, что его “предварительно тренировали” на изображениях ImageNet, чтобы оно узнало базовые визуальные признаки, прежде чем проводить “тонкую настройку” для конкретных задач.