litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 234 235 236 237 238 239 240 241 242 ... 482
Перейти на страницу:
современных трансформерных моделях обычно используются и более изощрённые способы позиционного кодирования — такие, например, как ротационные позиционные эмбеддинги (Rotational Position Embeddings, RoPE)[2169], экстраполируемые позиционные эмбеддинги (Extrapolatable Position Embeddings, xPos)[2170] или внимание с линейными смещениями (Attention with Linear Biases, ALiBi)[2171]. Более того, некоторые исследования показывают, что трансформерные модели могут иногда работать и вовсе без позиционного кодирования[2172].

Благодаря пригодности к эффективной параллелизации многослойные трансформеры быстро стали лидерами в самых разных задачах, причём не только в области обработки естественного языка, но и в других, связанных с обработкой последовательностей, вне зависимости от их природы. Музыка, записанная в виде последовательности нот, человеческая речь, представленная в виде последовательностей амплитуд звуковых волн, программный код, химические формулы, изображения, представленные в виде последовательностей пикселей, и даже последовательности действий в компьютерной игре — всё это может обрабатываться при помощи трансформеров.

Последующее переосмысление изначальной архитектуры привело к появлению трёх важных классов трансформерных сетей: сетей, основанных только на кодирующих блоках трансформера (энкодерные архитектуры), сетей, основанных только на декодирующих блоках (декодерные архитектуры), и архитектуры типа «кодировщик — декодер», использующие, подобно оригинальному трансформеру, оба типа блоков.

Энкодерные архитектуры чаще всего применяются в задачах, связанных с классификацией и поиском последовательностей. К их числу относятся, например, уже упоминавшаяся нами модель BERT и её наследники — ALBERT[2173], RoBERTa[2174] и так далее.

Сама идея кодирования блока текста в вектор фиксированного размера, который можно использовать в задачах классификации или оценки семантической близости, значительно старше трансформеров — мы уже говорили об этом ранее. Благодаря комбинации векторных вложений с LSTM-сетями были созданы такие модели, как CoVe[2175], ELMo[2176], ULMFiT[2177], позволившие заметно улучшить результаты методов, использовавших простые способы комбинации векторов отдельных слов (уже упоминавшийся нами dov2vec). Но с появлением BERT и других трансформерных кодировщиков подход с векторизацией текстов при помощи нейронных сетей приобрёл действительно широкую популярность.

Декодерные архитектуры более популярны в задачах генерации. Именно к этому классу относятся генеративные монстры GPT[2178], GPT-2[2179], GPT-3[2180] и так далее от OpenAI, о которых мы поговорим несколько позже.

Сети типа «кодировщик — декодер» (T5[2181] и др.) могут использоваться в самых разных задачах, и, хотя обычно они более затратны с вычислительной точки зрения, именно при их помощи удалось получить рекордные результаты во многих задачах, связанных с обработкой естественного языка.

Модели на основе трансформеров задали новую планку в качестве машинного перевода, сентимент-анализа (анализ тональности высказываний), языковом моделировании, диалоговых системах. Уровень «понимания» естественного языка, демонстрируемый этими моделями, существенно превосходит «способности» моделей предыдущего поколения.

Для оценки способности модели понимать естественный язык можно использовать тесты на понимание прочитанного. В английском языке для этого предназначен раздел «Чтение» (Reading) теста SAT (Scholastic Assessment Test/Scholastic Aptitude Test, Академический оценочный тест, стандартизованный тест, применяемый для оценки способностей абитуриентов при приёме в высшие учебные заведения в США, аналог российского ЕГЭ). На данном тесте основан крупнейший общедоступный ресурс для сравнения моделей — набор данных RACE (Large-scale ReAding Comprehension Dataset From Examinations, Крупномасштабный набор данных с экзаменов для понимания прочитанного), созданный в 2017 г. и содержащий около 28 000 отрывков и около 100 000 вопросов, сформулированных преподавателями английского языка. При случайном выборе ответов точность составляет 25%, а точность, показанная людьми (пользователями платформы Amazon Mechanical Turk) после отбрасывания вопросов с неоднозначным ответом и вопросов без правильного ответа, — около 95%[2182].

Успехи систем в области обработки естественного языка на данном наборе хорошо отражают достижения последних лет. Модель предыдущего поколения Gated-Attention Reader показала на данном наборе точность в 46%, модель BERT — 72%, усовершенствованные версии модели BERT — XLNet и RoBERTa — улучшили точность до 82–83%, а самая новая версия модели BERT — ALBERT-xxlarge — смогла показать на данном наборе рекордную точность в 89,4%[2183].

6.3.3.6 Тесты на понимание естественного языка

Прогресс в решении задач, связанных с пониманием естественного языка, нуждался в появлении стандартизированных тестов для численной оценки этого прогресса. Конечно, для этого можно было бы использовать процедуру, подобную тесту Тьюринга, но на практике такие способы оценки не всегда удобны. Они требуют привлечения людей, значительного времени, а также существенных усилий для обеспечения единообразных условий и статистической значимости тестов. Для того чтобы сделать процедуру оценки быстрой, недорогой и максимально стандартизованной, необходимо устранить из неё проблемный элемент, а именно — человека. Примерно этими же соображениями руководствовались создатели тестов SAT или ЕГЭ, и применение последних показывает, что, решая некоторые проблемы, они создают ряд новых: например возможность утечки условий теста или невозможность использования творческих заданий со свободными развёрнутыми (открытыми) ответами. Разработчики систем ИИ, разумеется, видят недостатки подобных методов, но им важно иметь в распоряжении инструменты для быстрой оценки возможностей новых моделей.

В конце 2018 г. на роль такого инструмента был предложен набор тестов под названием GLUE (General Language Understanding Evaluation, Оценка общего понимания языка)[2184], на смену которому год спустя пришёл его усложнённый вариант — SuperGLUE[2185].

Фактически SuperGLUE объединяет восемь наборов тестов, каждый из которых включает множество однотипных задач.

1. BoolQ (Boolean Questions, Булевские вопросы)[2186] — каждая задача в этом наборе состоит из короткого фрагмента текста (позаимствованного из «Википедии») и вопроса, подразумевающего один из двух ответов: «да» или «нет». При этом текст содержит информацию, необходимую для того, чтобы дать ответ на поставленный вопрос.

2. CB (CommitmentBank, Банк убеждений)[2187] — это корпус коротких текстов, в каждом из которых есть хотя бы одно сложноподчинённое предложение. Сами тексты взяты из трёх источников: The Wall Street Journal, корпуса художественной литературы British National Corpus и датасета Switchboard. Для каждого текста из придаточной части сложноподчинённого предложения вручную были сформулированы утверждения (обычно в прошедшем времени и без отрицания, например: «…Тесс добежит до финиша» перешло в «Тесс добежала до финиша», а «…Оливия не смогла пройти тест» — в «Оливия прошла тест»), при этом составителям пришлось отбросить множество случаев, когда было трудно построить краткий и точный вариант. После этого разметчики указывали, является ли полученное утверждение истинным, ложным или неопределённым (исходя из исходного текста и логики автора). В состав CommitmentBank были включены только те примеры, для которых с ответом было согласно не менее 80% людей-разметчиков. Таким образом, итоговая задача была оформлена как набор пар (текст и утверждение), для каждой из которых необходимо выбрать один из трёх возможных вариантов: 1) утверждение следует из текста;

1 ... 234 235 236 237 238 239 240 241 242 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?