Шрифт:
Интервал:
Закладка:
Рис. 42. “Не совсем точные” подписи, сгенерированные системой Show and Tell (Google) и программой CaptionBot (Microsoft)
Но не стоит бежать впереди паровоза. Автоматическая генерация подписей порой впадает в те же крайности, что и машинный перевод. Когда система работает хорошо, как на рис. 41, кажется, что в дело вмешивается магия. Однако, совершая ошибки, она может выдавать как слегка неточные, так и совершенно несуразные подписи. На рис. 42 показано несколько примеров ошибочных подписей. Возможно, они заставят вас рассмеяться, но, если вы человек незрячий и не видите фотографию, вам будет сложно определить, хорошая вам попалась подпись или плохая.
Хотя CaptionBot, созданный в Microsoft, говорит, что “понимает содержание любой фотографии”, на самом деле все наоборот. Даже выдавая верные подписи, эти системы не понимают фотографии в том смысле, в котором их понимают люди. Когда я загрузила в CaptionBot фотографию “военнослужащая с собакой в аэропорту” из главы 4, система выдала подпись “мужчина держит собаку”. Близко. Правда, это не “мужчина”. И все же эта подпись упускает все интересные особенности снимка, не учитывая, как он обращается к нам, к нашему опыту, чувствам и знаниям о мире. Иными словами, она упускает смысл фотографии.
Я уверена, что такие системы будут совершенствоваться, по мере того как исследователи будут расширять базы данных и разрабатывать новые алгоритмы. Однако, на мой взгляд, полное отсутствие понимания в сетях генерации подписей неизбежно означает, что эти системы останутся ненадежными, как и системы машинного перевода. В одних случаях они будут работать очень хорошо, а в других – с треском проваливаться. Более того, даже когда они будут выдавать в целом верные результаты, часто они не смогут ухватывать суть изображения, если запечатленная на нем ситуация богата смыслом.
Пока еще системы обработки естественного языка, которые классифицируют эмоциональную окраску предложений, переводят документы и описывают фотографии, далеки от человеческого уровня. Тем не менее они полезны для решения многих практических задач, а потому приносят большие прибыли разработчикам. Однако исследователи обработки естественного языка мечтают о создании машины, которая сможет свободно и гибко взаимодействовать с пользователями в реальном времени – в частности, разговаривать с ними и отвечать на их вопросы. В следующей главе мы узнаем о трудностях, возникающих при создании систем ИИ, работающих со всеми нашими запросами.
Звездолет “Энтерпрайз”. Звездная дата – 42402.7
Лейтенант-коммандер Дейта: Компьютер, я хочу больше узнать о юморе. Почему определенные комбинации слов и действий вызывают у людей смех?
Компьютер: Слишком много информации по теме. Уточните запрос.
Лейтенант-коммандер Дейта: Живое представление, у гуманоидов. Требуется взаимодействие.
Компьютер: Физический, интеллектуальный или сценический юмор?
Лейтенант-коммандер Дейта: Кто считается самым смешным из всех юмористов?
Компьютер: Стэн Орега, живший в двадцать третьем веке, специализировался на анекдотах о квантовой математике.
Лейтенант-коммандер Дейта: Нет. Слишком узко. Расширить запрос.
Компьютер: Вывожу.
На экране появляется список имен.
Компьютер на звездолете “Энтерпрайз” – имеющий огромный запас знаний и безукоризненно понимающий вопросы, которые ему задают, – давно стал эталоном взаимодействия человека и компьютера, восхищавшим как поклонников “Звездного пути”, так и исследователей ИИ (а перекрытие между этими группами, прямо скажем, немаленькое).
Бывший топ-менеджер Google Тамар Иегошуа откровенно признала, что компьютер из “Звездного пути” оказал влияние на разработку поисковика будущего: “Мы ориентируемся на компьютер из «Звездного пути». С ним можно говорить – он понимает вас и поддерживает беседу”[282]. Вымышленная технология из “Звездного пути” также вдохновила IBM на создание вопросно-ответной системы Watson. “Компьютер в «Звездном пути» – это вопросно-ответная система, – сказал руководитель проекта Watson Дэвид Ферруччи. – Он понимает, что вы спрашиваете, и дает ровно тот ответ, который вам необходим”[283]. Такими же соображениями специалисты Amazon руководствовались при создании голосового помощника Alexa. “На горизонте сияет яркая звезда, путь к которой займет еще много лет, даже много десятков лет, – и это задача воссоздать компьютер из «Звездного пути»”, – отметил топ-менеджер компании Дэвид Лимп[284].
Возможно, “Звездный путь” заставил нас мечтать о компьютере, который сможет давать точные, лаконичные и полезные ответы на любые вопросы. Но любой, кто пользовался одним из современных виртуальных помощников, созданных на основе ИИ – Siri, Alexa, Cortana, Google Now и др., – знает, что эта мечта еще не исполнена. Мы можем задавать вопросы вслух – обычно эти машины хорошо транскрибируют речь, – и они отвечают нам своими ровными, лишь немного механическими голосами. Иногда они понимают, какую информацию мы ищем, и направляют нас на нужную страницу в интернете. Но эти системы не осознают смысла наших вопросов. Так, Alexa может прочитать мне всю биографию бегуна Усэйна Болта, сообщить, сколько золотых медалей он выиграл, и даже назвать скорость, с которой он бежал стометровку на Олимпиаде в Пекине. Но не забывайте, простые вещи делать сложно. Если спросить Alexa “Умеет ли Усэйн Болт бегать?” или “Умеет ли Усэйн Болт быстро бегать?”, в обоих случаях она ответит заготовленными фразами “Простите, я этого не знаю” или “Хм-м-м, не знаю точно”. В конце концов, она не создана, чтобы знать, что такое “бегать” и “быстро”.
Хотя компьютеры уже научились точно транскрибировать нашу речь, “последний рубеж” они преодолеют, когда научатся понимать смысл наших вопросов.