Шрифт:
Интервал:
Закладка:
Сегодня в содружестве с генеративными языковыми моделями созданы уже десятки, если не сотни книг[2592], [2593].
Наследниками ruGPT-3 стали модели ruGPT-3.5[2594], [2595], [2596] и mGPT[2597]. Первая представляет собой усовершенствованную версию модели (с более современной реализацией блоков внимания), дообученную на расширенной версии датасета (в него, в частности, вошли обширные библиотеки правовых текстов и программного кода), вторая — многоязычную версию модели, способную работать с текстами на 61 языке. Многоязычность сегодня стала одним из важных направлений развития языковых моделей[2598] — многоязычные версии в наши дни можно найти практически для любых трансформерных архитектур. Например, многоязычными аналогами BERT являются модели mBERT[2599] (обученная авторами оригинальной модели) и XLM-R[2600], а среди множества многоязычных GPT помимо нашей mGPT можно отметить модель XGLM[2601] от исследователей из Meta AI.
Модели семейства GPT на сегодняшний день являются не единственными представителями класса NLP-моделей, претендующих на универсальность при решении широкого спектра задач, связанных с обработкой естественного языка. Ещё в октябре 2019 г. в статье под названием «Исследование пределов переноса знаний при помощи унифицированного трансформера вида „текст-в-текст“» [Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer] публике была представлена модель T5 (Text-to-Text Transfer Transformer, Основанный на переносе трансформер вида «текст-в-текст») от исследователей из Google. Эта модель содержит равное количество блоков трансформера в кодирующей и декодирующей частях сети. Самый большой обученный создателями модели вариант T5 содержит 11 млрд параметров. Для обучения использовался корпус объёмом около 750 Гб, получивший название C4 (Colossal Clean Crawled Corpus, Колоссальный, очищенный, собранный в интернете корпус), являющийся отфильтрованной версией корпуса Common Crawl. T5 успешно справляется с такими задачами, как классификация высказываний, ответы на вопросы, перевод текста или его реферирование, показывая на ряде задач SOTA-результаты[2602]. В октябре 2020 г. исследователи из Google выложили в общий доступ многоязычную версию своей модели, получившую название mT5. Для её обучения был использован гигантский датасет mC4, включающий в себя 6,6 млрд веб-страниц на 101 языке. Суммарный объём файлов датасета составляет почти 27 терабайт, что соответствует 6,3 млрд токенов[2603].
В ноябре 2021 г. свет увидела ещё одна усовершенствованная версия модели T5, получившая название ExT5. В данном случае фокус был сделан на экстремальной многозадачности модели. Датасет для её обучения, получивший название ExMix (Extreme Mixture, Экстремальная смесь), включает в себя тексты заданий и решений для 107 различных задач, относящихся к разным доменам и семействам. ExT5 смогла заметно превзойти свою прародительницу на задачах из набора SuperGLUE и других сборниках тестов[2604].
Модели, подобные GPT-3 или T5, нередко генерируют тексты хотя и грамматически корректные, но не слишком достоверные с фактической точки зрения. Скормив в ruGPT-3 список «интересных фактов», взятых с одного из развлекательных интернет-сайтов, для затравки, я однажды получил среди прочих такие «факты»:
• В Австралии бытует мнение, что если на тебя пристально смотрит лев, то это значит, что у тебя в руках морковка.
• В Арктике нет почтовых голубей. Все письма для белых медведей доставляет летчик-истребитель по радио.
• Выросший в утробе матери скорпион быстрее развивает скорость, чем обычный.
• Джентльмены делятся своими сигарами, если хотят произвести впечатление на женщин.
• Первый государственный банк открылся в России в 1769 г., в США — в 1792-м и так далее.
К такого рода фантазиям склонны в большей мере модели с небольшим числом параметров, но даже от модели с 13 млрд параметров не стоит ждать 100% проверенных фактов. В какой-то мере этим свойством модели можно управлять (например, изменяя параметры генератора последовательностей), но стоит задаться вопросом: а насколько с фактической точки зрения хороши ответы людей? Мир, полный псевдонаучных фриков, сторонников различных теорий заговора, антипрививочников, плоскоземельцев и так далее, генерирует соответствующий цифровой след. Неудивительно, что модели, обученные на случайных текстах из интернета, да ещё и использующие значительную случайную компоненту при выборе токенов во время генерации, периодически начинают производить на свет полную ересь. Обычно, если мне задают вопрос, требующий тех или иных фактических знаний, я обращаюсь к более-менее надёжным источникам во Всемирной сети, таким, например, как энциклопедии, научные статьи и обзоры и так далее. И главным помощником тут становятся поисковые сервисы, такие как Google (кстати говоря, алгоритмы их работы также основаны на современных моделях машинного обучения). Может быть, можно сделать ещё один шаг вперёд и научить нейронную сеть автоматически формировать поисковые запросы для извлечения фактических знаний из большой базы данных? Возможность этого продемонстрировали исследователи из DeepMind, создавшие модель, получившую название RETRO (Retrieval-Enhanced Transformer, Трансформер, усовершенствованный за счёт поиска). RETRO извлекает из большого набора документов релевантные фрагменты текста, чтобы затем использовать их при формировании ответа. Сравнивая сгенерированные тексты с отрывками, на которые модель опиралась при генерации, можно понять, на чём именно основаны полученные ответы[2605]. В 2022 г. создатели модели Re-Imagen (Retrieval-augmented Text-to-Image Generator, Дополненный поиском генератор изображений по тексту)[2606] применили аналогичный подход при генерации изображений, позволяя модели при генерации картинки «подглядывать» в извлекаемые из базы данных изображения объектов, редко встречающихся в обучающей выборке.
В январе 2021 г. исследователи из Google сообщили[2607] о создании новой архитектуры для разреженных трансформерных моделей, названной Switch Transformer (дословно «переключатель-трансформер» или «коммутатор-трансформер»), — наследника архитектуры GShard[2608]. Самая большая модель на основе этой архитектуры получила название Switch-C. Число обучаемых параметров этой модели — 1,571 трлн, что почти в девять раз больше, чем у GPT-3. Таким образом, Switch-C стала первой трансформерной моделью, преодолевшей порог в триллион параметров. Помимо увеличения размера модели, авторам удалось также добиться существенного ускорения её работы по сравнению с предшественниками. Впрочем, сравнивать Switch-трансформеры с моделями типа GPT-3 или T5 не совсем правильно, поскольку в данном случае речь идёт не о монолитной нейросетевой архитектуре, а о сети с разреженным типом активации, состоящей из множества отдельных подсетей-экспертов, переключение между которыми выполняет отдельная нейросетевая модель-диспетчер (Gating Network). При этом каждая сеть-эксперт может располагаться на отдельном узле вычислительного кластера. В итоге на каждом шаге обучения сети обновляется лишь сравнительно небольшое подмножество весов сети, что делает задачу обучения и