Шрифт:
Интервал:
Закладка:
3. COPA (Choice of Plausible Alternatives, Выбор правдоподобных альтернатив)[2188] — задачи на установление причинно-следственных связей. При их решении необходимо выбрать одно из двух возможных следствий из некоторого утверждения.
4. MultiRC (Multi-Sentence Reading Computing, Вычисления на основе чтения множества предложений)[2189] — каждая задача этого набора включает в себя небольшой текст, вопрос к нему и набор ответов на этот вопрос. Необходимо определить, какие из этих ответов верны, а какие нет (т. е. каждый вопрос может иметь несколько возможных правильных ответов).
5. ReCoRD (Reading Computing with Commonsense Reasoning Dataset, Вычисления на основе чтения с использованием датасета здравого смысла)[2190] — в этом наборе каждая задача состоит из новостной статьи и вопроса к ней, в тексте которого одно из существительных заменено пропуском. Также приводится список существительных, в отношении каждого из которых необходимо определить, можно ли подставить это слово вместо пропуска. Статьи для теста позаимствованы из CNN и Daily Mail.
6. RTE (Recognizing Textual Entailment, Распознавание текстуальных импликаций)[2191], [2192], [2193], [2194] — этот набор заданий объединяет тесты, используемые на ежегодных соревнованиях по текстуальной импликации ([linguistic] entailment — это построение некоторого вывода на основе имеющихся в тексте посылок, в отечественной лингвистике этот процесс традиционно называют «текстуальной импликацией», отталкиваясь от термина «импликация», означающего логическую операцию следования). Каждое задание состоит из двух утверждений, для которых нужно определить, следует второе утверждение из истинности первого или нет.
7. WiC (Word-in-Context, Слово-в-контексте) — задачи устранения неоднозначности смысла слова. В каждом задании приведены два предложения, в каждом из которых встречается некоторое слово. Необходимо определить, используется ли слово в одном и том же смысле в обоих предложениях. Сами предложения взяты из датасетов WordNet и VerbNet, а также словаря Wiktionary.
8. WSC (Winograd Schema Challenge, Соревнования по схеме Винограда) — задачи разрешения кореферентности. Кореферентностью, или референциональным тождеством, в лингвистике называют отношение между именами в высказываниях, когда имена ссылаются на один и тот же объект, ситуацию или группу объектов или ситуаций (так называемый референт). Например, в тексте «Это Гарольд. Он скрывает боль» местоимение «он» ссылается на некого Гарольда (являющегося в данном случае референтом), а в тексте «Осёл, собака, кот и петух отправились в город Бремен. По дороге животные нашли себе новый дом» существительное «животные» ссылается на референт, представляющий собой группу, состоящую из осла, собаки, кота и петуха. В WSC используется частный случай кореферентности, называемый анафорой[2195]. В случае анафоры слово-отсылка (обычно местоимение), называемое анафором, расположено в тексте после имени, на которое оно ссылается (это имя называется антецедентом). Если порядок следования имени и отсылки противоположный, то такой вид кореферентности называется катафорой. Таким образом, в тексте про Гарольда, скрывающего боль, мы наблюдаем именно анафору, при этом слово «он» является анафором, а слово «Гарольд» — антецедентом.
В WSC каждая задача, называемая «схемой Винограда», заключается в том, чтобы сопоставить местоимение-анафор с одним из имён-существительных, встречающихся в тексте. Для того чтобы произвести такое сопоставление, нужно обладать изрядной толикой здравого смысла и знаний об окружающем мире. Создатель WSC — канадский исследователь в области ИИ Гектор Левеск — назвал свой текст в честь другого известного специалиста в области ИИ — уже знакомого нам Терри Винограда.
Также SuperGLUE содержит два диагностических набора задач. Первый из них аналогичен RTE и предназначен для анализа знаний моделей о языке и окружающем мире. Второй предназначен для анализа гендерных предубеждений, присущих моделям, и основан на датасете WinoGender (от Winograd schemas [схемы Винограда] и gender [гендер]). О каких проблемах идёт речь? Возможно, вы знаете классическую загадку: «Мужчина и его сын попадают в страшную автокатастрофу. Отец погибает, а мальчик тяжело ранен. В больнице хирург смотрит на пациента и восклицает: „Я не могу оперировать этого мальчика, он мой сын!“ Как это может быть?»
Большинство людей испытывает трудности с поиском правильного ответа на этот вопрос и начинает строить гипотезы, связанные с подменой детей в роддоме и тому подобное, хотя в действительности ответ прост: хирург — это мать мальчика. Такого рода затруднения свойственны не только людям, но и моделям, обученным на гендерно несбалансированных датасетах. В результате эти модели оказываются неспособны правильно разрешать кореферентности в некоторых ситуациях. Например, разработанная в Стэнфорде библиотека CoreNLP, использующая для разрешения кореферентности модель, основанную на правилах, оказалась не в состоянии найти кореферентность между словами her [её] и surgeon [хирург] во фразе: The surgeon couldn’t operate on her patient: it was her son [Хирургу нельзя было оперировать пациента: это был её сын][2196].
5 января 2021 г. произошло знаковое событие: впервые в истории SuperGLUE моделям машинного обучения удалось потеснить человека[2197], [2198]. Этого добился ансамбль моделей T5 и Meena, разработанный специалистами Google Brain, который смог набрать в тестах 90,2 балла, что на 0,4 балла выше уровня, демонстрируемого на том же наборе тестов людьми. Но этому рекорду суждено было просуществовать всего один день, потому что уже 6 января на первое место в топ-листе взошла модель DeBERTa (Decoding-enhanced BERT with disentangled attention, BERT с улучшенным декодированием и распутанным вниманием)[2199], разработанная специалистами из Microsoft. В результате рекордный показатель вырос ещё на 0,1 балла. В июле 2021 г. команде исследователей из компании Baidu с моделью ERNIE 3.0 удалось улучшить этот результат до 90,6 балла[2200]. 2 декабря 2021 г. этот результат был улучшен до 90,9 балла командой исследователей из Microsoft с их моделью Turing NLR v5, однако этот рекорд просуществовал всего пять дней — уже 7 декабря исследователь Уильям Федус из Google смог улучшить его на 0,1 балла за счёт использования нейросетевой модели с архитектурой SS-MoE[2201].
В 2020 г. командой AGI NLP под руководством Татьяны Шавриной из «Сбера» был подготовлен и опубликован русскоязычный вариант SuperGLUE, получивший название Russian SuperGLUE[2202], [2203].
Этот датасет также состоит из восьми наборов задач, не считая диагностического набора LiDiRus (Linguistic Diagnostic for Russian, Лингвистическая диагностика для русского языка), который был получен путём адаптации диагностического набора английской версии SuperGLUE.
1. DaNetQA — набор вопросов на здравый смысл и знания об окружающем мире, подразумевающих ответ «да» или «нет» (набор не является прямым аналогом BoolQ и создан авторами Russian SuperGLUE с нуля).
2. RCB (Russian Commitment Bank, Русскоязычный банк убеждений) — классификация наличия причинно-следственных