Шрифт:
Интервал:
Закладка:
В наши дни исследования в области MoE-моделей ведутся довольно активно. Например, в сентябре 2021 г. исследователи из Microsoft рассказали о модели под названием Z-code M3 (M3 означает Multitask, Multilingual и MoE — Многозадачная, многоязычная и MoE)[2611], в декабре появилась новая MoE-модель от Google под названием GLaM (Generalist Language Model, Универсальная языковая модель)[2612], а под конец года о создании собственных языковых моделей на основе парадигмы MoE заявили исследователи из Meta (бывшей Facebook)[2613]. По слухам, MoE-подход был использован и при создании GPT-4 от OpenAI[2614].
В апреле 2021 г. исследователи из китайской компании Huawei опубликовали генеративную языковую модель для китайского языка, получившую название PANGU-α[2615]. В древнекитайской мифологии Пань-гу (кит. трад. 盤古, упр. 盘古, пиньинь Pángǔ) — первый человек на земле, появившийся из вселенского яйца и взмахом огромного топора отделивший мутную часть — землю (Инь) от светлой части — неба (Ян).
В самой большой версии PANGU-α 207 млрд параметров, что на 32 млрд параметров больше, чем в самой большой версии GPT-3. Модель обучена на специально созданном текстовом корпусе объёмом около 1,1 терабайта.
Не остались без внимания китайских исследователей и MoE-модели. Исследователи из Пекинской академии искусственного интеллекта (北京智源人工智能研究院, Beijing Academy of Artificial Intelligence, BAAI) создали собственную платформу для обучения таких моделей, получившую название FastMoE. Эта платформа позволяет использовать для обучения MoE-моделей как суперкомпьютеры, так и обычные GPU. Благодаря FastMoE китайские исследователи весной 2021 г. смогли обучить модель под названием Wudao (悟道, так зовут повара-монаха, героя Джеки Чана в фильме «Новый храм Шаолинь»), вторая версия которой, представленная общественности 31 мая, имела 1,75 трлн параметров (что на 150 млрд больше, чем у модели Switch-C)[2616].
В октябре 2021 г. исследователи из Академии DAMO (Academy for Discovery, Adventure, Momentum and Outlook, Академия открытий, авантюр, импульса и перспектив) — исследовательского подразделения компании Alibaba — сообщили[2617] о создании новой версии своей MoE-модели M6 (MultiModality-to-MultiModality Multitask Mega-Transformer, Многозадачный мегатрансформер из мультимодальных представлений в мультимодальные) с 10 трлн параметров.
В апреле 2022 г. группа китайских исследователей из DAMO, Университета Цинхуа, Пекинской академии искусственного интеллекта и Лаборатории Чжэцзян (之江实验室) (научно-исследовательского учреждения, созданного совместно правительством провинции Чжэцзян, Чжэцзянским университетом и Alibaba Group) сообщила[2618] о создании MoE-модели MoDa-174T (от MoE и Data — название отсылает к гибридной стратегии параллелизма MoE и данных) с 173,9 трлн параметров, в состав которой входят целых 96 000 сетей-экспертов. Для обучения модели использовались фреймворк BaGuaLu[2619] и суперкомпьютер Sunway последнего поколения. Модель обучали на самом большом китайском мультимодальном датасете — M6‑Corpus[2620], содержащем 1,9 Тб изображений и 292 Гб текстов. К сожалению, авторы не приводят информации о результатах решения моделью различных тестовых задач, поэтому о способностях MoDa-174T мы пока что можем только догадываться.
На сентябрь 2023 г. MoDa-174T, по всей видимости, является самой большой MoE-нейросетевой моделью, а первую по числу параметров позицию среди «монолитных» генеративных языковых трансформерных моделей (и нейросетевых моделей вообще) заняла сеть Megatron-Turing NLG 530B с 530 млрд параметров, созданная специалистами из Nvidia и Microsoft[2621], [2622].
Если же рассматривать только модели, веса которых были выложены в открытый доступ, то лидерство принадлежит опубликованной в сентябре 2023 г. самой крупной версии модели Falcon[2623] со 180 млрд параметров от Института технологических инноваций (Technology Innovation Institute) — правительственной исследовательской организации из Объединённых Арабских Эмиратов. Второе место принадлежит модели BLOOM[2624] со 176 млрд параметров, увидевшей свет в ноябре 2022 г. и созданной международной группой из 391 исследователя, входящих в коллаборацию BigScience (в их числе и Татьяна Шаврина из моей команды в Сбере). Третье место удерживает модель OPT-175B[2625], [2626], созданная ещё полугодом ранее исследователями компании Meta (бывшая Facebook) и отставшая от BLOOM на 1 млрд параметров. Четвёртое же место достаётся вышедшей на неделю позже BLOOM модели Galactica[2627] со 120 млрд параметров, в обучающий корпус которой вошли преимущественно научные тексты.
6.6.5 Лучше меньше, да умнее! Появление ChatGPT
Сегодня совершенствование генеративных трансформерных моделей происходит не только в направлении увеличения числа параметров и разработки новых вариантов архитектуры сетей. Конечно, с момента появления GPT-3 было создано несколько монолитных генеративных трансформерных моделей, превосходящих её по числу параметров, например уже упомянутая нами PANGU-α, модель Jurassic со 178 млрд параметров от израильской исследовательской компании AI21 Labs[2628] и модель Gopher с 280 млрд параметров от DeepMind[2629], [2630], а в обзорных исследованиях 2020–2022 гг. часто делался акцент на экспоненциальном росте со временем числа параметров языковых моделей. Однако этих эмпирических наблюдений было явно недостаточно для того, чтобы чётко сформулировать законы оптимального масштабирования трансформерных нейросетей. Многие исследователи задавались вопросом о том, как количество параметров модели должно соотноситься с размером обучающей выборки и объёмом вычислений, затраченных на обучение.
В течение почти двух лет научное сообщество ориентировалось во многом на результаты, полученные в 2020 г. исследователями из OpenAI и представленные в статье «Законы масштабирования нейронных языковых моделей» [Scaling Laws for Neural Language Models][2631]. Вот основные выводы этого исследования:
• точность трансформерной языковой модели плавно растёт по мере увеличения числа её параметров, размера датасета и объёма вычислений, затраченных на обучение;
• для достижения оптимума все три фактора должны увеличиваться совместно;
• точность предсказаний модели является степенной функцией каждого отдельного фактора, если она не ограничена двумя другими;
• каждый раз, когда мы увеличиваем размер модели в восемь раз, нам нужно увеличивать объём датасета примерно в пять раз.
Однако в 2022 г. исследователям из DeepMind удалось доказать, что эти оценки были недостаточно точными. С точки зрения оптимальности языковые модели должны быть значительно меньше по размеру или обучаться существенно дольше, а объём датасета и число параметров модели должны увеличиваться в равной пропорции. Фактически это означало, что и GPT-3 с её 175 млрд параметров, и Gopher с 280 млрд параметров, и тем более Megatron-Turing NLG с 540 млрд параметров были трагически недообучены. Авторы