Шрифт:
Интервал:
Закладка:
Вопрос: Как зовут квотербека, которому было 38 лет на XXXIII Супербоуле?
Верный ответ: Джон Элвей.
Чтобы правильно ответить на вопрос, не нужно ни читать между строк, ни применять логику. Скорее этот тест проверяет не понимание прочитанного, а умение извлекать ответы из текста. Извлечение ответов – полезный навык для машин. Именно этим должны заниматься Siri, Alexa и другие цифровые помощники: им нужно превратить ваш вопрос в поисковый запрос, а затем извлечь ответ из результатов поиска.
Стэнфордская группа также протестировала людей (других работников Amazon Mechanical Turk), чтобы их показатели можно было сравнивать с результатами компьютеров. Каждому человеку давали фрагмент текста и вопрос, после чего испытуемый должен был “выбрать кратчайший отрывок текста, в котором содержался ответ на этот вопрос”[298]. (Верный ответ давал работник Mechanical Turk, составлявший вопрос.) При оценке по такому методу люди показали точность 87 % в тесте SQuAD.
Вскоре тест SQuAD стал самой популярной метрикой способностей вопросно-ответных алгоритмов, и разработчики ОЕЯ по всему миру стали соревноваться за первое место в его таблице лидеров. Самые успешные программы использовали специальные формы глубоких нейронных сетей – более сложные версии архитектуры кодер-декодер, описанной выше. В этих системах входными сигналами выступали текст фрагмента и вопрос, а на выходе сеть выдавала свою оценку того, где начинается и заканчивается фраза, содержащая ответ.
В последующие два года конкуренция между соревнующимися в точности программами, проходящими тест SQuAD, неизменно росла. В 2018 году две исследовательские группы – одна из лаборатории Microsoft, а другая из китайской компании Alibaba – создали программы, которые показали лучшие результаты, чем протестированные стэнфордскими учеными люди. В пресс-релизе Microsoft говорилось: “В Microsoft создали ИИ, который умеет не хуже людей читать документы и отвечать на вопросы по ним”[299]. Руководитель группы исследования обработки естественного языка Alibaba отметил: “Для нас большая честь стать свидетелями момента, когда машины превзошли людей в понимании прочитанного”[300].
Э-э… Мы всё это уже слышали. Вот классический рецепт исследований ИИ: определите относительно узкую, но полезную задачу и соберите большой набор данных для проверки эффективности машины при выполнении этой задачи. Произведите ограниченную оценку человеческих способностей по работе с этим набором данных. Организуйте соревнование, в котором системы ИИ будут состязаться друг с другом, работая с тем же набором данных, пока не достигнут человеческой оценки или не превзойдут ее. Далее не только сообщите о дейтвительно впечатляющем и полезном достижении, но и сделайте ложное заявление, что победившие системы ИИ достигли человеческого уровня в более общей задаче (например, “понимании прочитанного”). Если вы еще не узнали этот рецепт, перечитайте описание конкурса ImageNet в главе 5.
Некоторые популярные газеты сдержанно описали результаты теста SQuAD, и это достойно восхищения. Так, The Washington Post дала осторожную оценку:
Специалисты по ИИ отмечают, что тест слишком ограничен, чтобы сравнивать его прохождение с настоящим чтением. Давая ответы, система не пытается понять текст, а находит паттерны и соответствующие понятия в коротком фрагменте. Тест проводился лишь на написанных по четким шаблонам статьях “Википедии”, а не на объемном корпусе разнообразных книг, новостных заметок и рекламных щитов, с которыми постоянно взаимодействует большинство людей… Кроме того, в каждом фрагменте обязательно содержался искомый ответ, то есть моделям не приходилось понимать прочитанное или мыслить логически… Истинное чудо понимания прочитанного, по словам экспертов, заключается в чтении между строк – установлении связей между понятиями, построении логических цепочек и понимании идей, которые не обсуждаются открытым текстом[301].
Лучше и не скажешь.
Разработка вопросно-ответных систем остается одним из ключевых направлений исследований ОЕЯ. На момент написания этих строк специалисты по ИИ собрали несколько новых наборов данных – и запланировали новые соревнования, – которые станут серьезным вызовом для программ. Институт искусственного интеллекта Пола Аллена – частный исследовательский институт в Сиэтле, организованный одним из основателей Microsoft Полом Алленом, – разработал набор вопросов по естествознанию уровня начальной и средней школы. В вопросах есть несколько вариантов ответов, и для прохождения теста необходимы навыки, которые не ограничиваются извлечением ответов, поскольку системам необходимо задействовать комбинацию обработки естественного языка, фоновых знаний и рассуждений на основе здравого смысла[302]. Вот пример:
Какой простейший механизм используется, когда игрок в софтбол ударяет битой по мячу?
(A) блок (B) рычаг (C) наклонная плоскость (D) ворот
Если вы не знаете, верный ответ (B). Сотрудники Института Аллена адаптировали нейронные сети, обошедшие людей в тесте SQuAD, чтобы проверить их на новом наборе вопросов. Они обнаружили, что даже когда эти сети дополнительно тренировали на подмножестве из восьми тысяч вопросов по естествознанию, при ответе на новые вопросы они демонстрировали результаты, не превосходящие случайного угадывания[303]. На момент написания этой книги наивысшая точность, показанная системой ИИ на этом наборе данных, составляет около 45 % (25 % – при случайном угадывании)[304]. Специалисты из Института Аллена назвали свою статью об этом наборе данных “Думаете, вы решили задачу по созданию вопросно-ответных систем?” К ней напрашивается подзаголовок: “Ошибаетесь”.