Шрифт:
Интервал:
Закладка:
3. PARus (Plausible Alternatives for Russian, Правдоподобные альтернативы для русского языка) — задачи на целеполагание, предполагающие выбор из альтернативных вариантов на основе здравого смысла (создан авторами Russian SuperGLUE на основе подборки новостей и художественной литературы из корпуса TAIGA[2204]). Напоминает MultiRC с той лишь разницей, что правильный ответ в списке только один.
4. MuSeRC (Multi-Sentence Reading Comprehension, Понимание прочитанного по нескольким предложениям) — задания содержат текст и вопрос к нему, ответ на который можно дать на основе этого текста.
5. RuCoS (Russian reading comprehension with Commonsense, Понимание прочитанного на основе здравого смысла для русского языка) — аналог ReCoRD, составленный на основе подборки статей с новостных сайтов.
6. TERRa (Textual Entailment Recognition for Russian, Распознавание текстуальной импликации для русского языка) — аналог RTE, созданный авторами Russian SuperGLUE на основе подборки новостей и художественной литературы.
7. RUSSE (Russian Semantic Evaluation, Оценка семантики для русского языка) — задачи распознавания смысла слова в контексте. Первая версия этого набора тестов (RUSSE’15)[2205] была разработана ещё в 2015 г., в состав же Russian SuperGLUE вошла его более современная версия[2206] — RUSSE’18. Его разработкой занималась большая группа исследователей из университетов и частных компаний.
8. RWSD (Russian Winograd Schema Dataset, Русскоязычный датасет схем Винограда) — переводной вариант датасета WSC.
Первое место в таблице лидеров Russian SuperGLUE на сентябрь 2023 г. принадлежит людям (их результат оценивается в 0,811 балла), второе место (0,762 балла) занимает трансформерная модель FRED-T5 (о ней мы расскажем несколько позже), а третье — ансамбль трансформерных моделей под названием Golden Transformer v2.0 (0,755 балла)[2207].
Помимо русскоязычного варианта SuperGLUE, в настоящее время созданы французский (FLUE)[2208], китайский (CLUE)[2209] и польский (KLEJ)[2210] аналоги этого теста. Также исследователи разработали датасеты XGLUE (Cross-lingual GLUE, Межъязыковой GLUE)[2211] и XTREME (Cross-lingual TRansfer Evaluation of Multilingual Encoders, Межъязыковая оценка переноса для многоязычных кодировщиков)[2212], ориентированные на многоязычные модели.
Сверхчеловеческий уровень понимания естественного языка, демонстрируемый моделями машинного обучения в тестах, подобных SuperGLUE, пока что вызывает некоторые вопросы. Например, Татьяна Шаврина и Валентин Малых обращают внимание на то, что метрики, положенные в основу SuperGLUE, несовершенны — арифметическое усреднение результатов, полученных моделями в разных типах тестов, приводит к заметной переоценке возможностей моделей, и в действительности люди всё же пока что понимают естественный язык лучше машин[2213]. Поэтому не исключено, что в ближайшее время наборы тестов будут подвергнуты очередному пересмотру — за счёт добавления новых, более сложных заданий, а также за счёт улучшения самих способов оценки результатов.
Впрочем, некоторые виды задач на понимание естественного языка пока что являются довольно сложными даже для лучших нейросетевых моделей. Например, созданный ещё в 2020 г. набор тестов MMLU (Massive Multitask Language Understanding, Массовое мультизадачное понимание языка), охватывающий 57 типов заданий (задачи из области арифметики, информатики, юриспруденции, истории США и т. д.), всё ещё остаётся крепким орешком. Лучший результат здесь демонстрирует GPT-4 с 86,4% правильных ответов — что пока не дотягивает до уровня людей-экспертов с результатом в 89,8%[2214], [2215]. Впрочем, последние исследования показывают, что при помощи некоторых алгоритмических трюков можно получить практически «бесплатную» прибавку в несколько процентных пунктов к результатам лучших моделей, а также что в самом наборе тестов есть некоторое количество дефектов и ошибок[2216].
В середине 2022 г. благодаря невиданной доселе коллаборации учёных (442 автора из 132 научных коллективов) свет увидел самый большой набор тестов для исследования возможностей генеративных языковых моделей. Он описан в статье «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей» [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models][2217] и включает в себя 204 различных типа задач. Набор получил название BIG-bench не только из-за своего размера. Слово BIG в данном случае является аббревиатурой от Beyond the Imitation Game [За пределами игры в имитацию], что отсылает нас к тесту Тьюринга и намекает на то, что данный набор тестов является результатом развития методологии, предложенной Тьюрингом.
Результаты тестирования современных моделей машинного обучения на этом наборе тестов показывают, что, хотя прогресс в последние годы очень значителен, сохраняется множество задач, в которых люди пока что уверенно превосходят даже самые совершенные нейросети. При этом если существующие темпы роста возможностей моделей будут сохраняться до конца 2020-х гг., то этот разрыв, скорее всего, будет ликвидирован.
Авторы ещё одной коллекции тестов для больших языковых моделей — HELM (Holistic Evaluation of Language Models, Комплексная оценка языковых моделей) — делают ставку на развитую систему классификации тестовых заданий (по годам создания, языкам, типам решаемых задач и методологиям оценки). Кроме того, они используют для оценки ответов моделей целых семь показателей: точность [accuracy], калибровку [calibration], устойчивость [robustness], справедливость [fairness], предвзятость [bias], токсичность [toxicity] и эффективность [efficiency]. Всё это позволяет авторам агрегатора тестов производить оценку языковых моделей в зависимости от сценариев их предполагаемого использования[2218].
Другое направление развития таких тестов — добавление дополнительных модальностей, например зрительной. Одним из хорошо зарекомендовавших себя видов такого рода заданий является ответ на вопросы, заданные к некоторой картинке. Например, к фотографии пиццы можно задать вопросы: «На сколько кусков нарезана эта пицца?» или «Является ли эта пицца вегетарианской?» В научной литературе такой тип заданий обычно именуется «ответом на визуальные вопросы» (Visual Question Answering, VQA)[2219]. Если посмотреть на таблицу лидеров для задачи VQA, основанную на популярном датасете COCO (Common Objects in COntext, Обычные объекты в контексте), то в ней всё ещё лидируют люди: трансформерная модель VLMo (Vision-Language pretrained Model, Предобученная модель «зрение — язык»)[2220] демонстрирует точность ответов, равную 81,3%, при 83% у людей[2221]. Справедливости ради стоит отметить, что за 2021 г. моделям удалось прибавить почти четыре процентных пункта, поэтому и здесь торжество ИИ не за горами.
Впрочем, создатели сложных автоматизированных тестов не отчаиваются: в начале 2022 г. они порадовали научное сообщество новым многоязычным набором сложных заданий, получившим название IGLUE (Image-Grounded Language Understanding Evaluation, Базирующаяся на изображениях оценка понимания языка)[2222]. Постепенное усложнение автоматизированных тестов должно помочь исследователям в деле создания новых, ещё более эффективных моделей для решения задач обработки естественного языка.
6.3.4 Современные чат-боты и прогнозы Тьюринга