litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 279 280 281 282 283 284 285 286 287 ... 482
Перейти на страницу:
всего на несколько примеров, помещённых в затравку. Способ обучения модели на крайне малом количестве примеров принято обозначать термином few-shot learning (обучение всего на нескольких примерах). Правда, если подумать, то указание примеров в затравке сложно считать полноценным обучением (learning) модели, ввиду чего некоторые исследователи стали называть такой подход few-shot prompting (составление затравки или запроса, содержащего небольшое количество примеров) или просто «натаскивание» [priming].

Удивительно, но применение этого метода позволяет использовать модель для решения огромного количества интеллектуальных задач: нужно лишь сформулировать задачу в виде текста, состоящего из вопросов и ответов.

Конечно, многие задачи GPT-3 решить таким образом не может, но всё же полученные результаты стали серьёзным шагом в направлении создания универсальных систем искусственного интеллекта. Более того, модели, подобные GPT-3, способны решать некоторые задачи в ещё более экстремальных условиях: когда затравка и вовсе не содержит ни одного примера! Такой способ называется zero-shot learning (обучение при отсутствии примеров) или даже, если пожелаете, zero-shot prompting — то есть вы можете написать в затравке «русский: стол, английский:» и надеяться, что модель «догадается», что правильным продолжением будет table. Оказывается, что иногда и этот подход работает![2571]

Конечно, никто не мешает использовать для GPT-3 и классический для предобученных моделей подход, заключающийся в дообучении [fine-tuning] модели на целевых данных в течение ограниченного числа шагов и с небольшим значением параметра скорости обучения. Но в случае версий модели с достаточно большим числом параметров такой подход может оказаться вычислительно затратным, а иногда и вовсе невозможным в отсутствие дорогого специализированного оборудования. Возможным решением может стать обучение, затрагивающее не всё множество весов модели, а лишь их некоторую часть. Этого можно добиться путём «заморозки» части слоёв модели или использования адаптеров — новых нейросетевых блоков, вставляемых между слоями предобученной сети, веса которой при этом остаются неизменными[2572], [2573]. Именно на этом подходе основан популярный в наши дни метод LoRA (Low-Rank Adaptation, Низкоранговая адаптация)[2574].

Интересно, что иногда ограничение числа подстраиваемых в ходе дообучения параметров может приводить к улучшению результатов модели при решении целевой задачи. Например, авторы работы «Воспитайте ребёнка в большой языковой модели: на пути к эффективному и обобщаемому дообучению» [Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning][2575] разработали подход, позволяющий выбирать подсеть большой сети, наиболее важную для дообучения модели под конкретную задачу. Иногда специалисты в области машинного обучения предпочитают использовать и другие, более экономные, чем полноценное дообучение модели, методы, такие как ансамблирование [ensembling][2576], пробинг («зондирование») [probing][2577], [2578], [2579], [2580], заморозку слоёв [layer freezing][2581] или подстройку затравки [prompt tuning, prefix tuning, p-tuning][2582], [2583], [2584], [2585].

Идея ансамблирования заключается в том, чтобы комбинировать выход большой предобученной модели с выходом сравнительно небольшой модели, обученной решению целевой задачи на небольшом датасете. Например, маленькую версию GPT-3 можно обучить генерации текста в стиле определённого автора, а затем в качестве распределения вероятностей токенов при генерации текста использовать усреднённое распределение двух моделей — предобученной на огромном наборе разнообразных текстов гигантской версии GPT-3 и маленькой «авторской» версии. При этом оценки моделей можно сочетать и более умным образом, чем путём простого усреднения: например, можно использовать взвешенное усреднение или вовсе приспособить для генерации итогового распределения отдельную модель.

Идея пробинга заключается в том, чтобы обучить маленькую модель, решающую целевую задачу, отталкиваться от представлений, выученных большой предобученной моделью. По сути, этот подход похож на послойное обучение нейронной сети. Более того, нередко глубокие трансформерные модели действительно обучают послойно, «замораживая» веса в части слоёв предобученной модели. Но пробинг нередко имеет более изощрённую форму, когда на вход обучаемой модели-«надстройки» могут подаваться активации (выходы) из разных слоёв предобученной сети. Часто в качестве «надстройки» применяются простые линейные модели, такую разновидность пробинга называют линейным пробингом [Linear Probing или Linear Probe].

И наконец, последний подход, подстройка затравки, получил популярность именно благодаря развитию генеративных текстовых моделей. В рамках этого подхода развиваются алгоритмы, позволяющие разными автоматизированными способами модифицировать затравку при генерации, чтобы добиться от модели нужного поведения.

В конце 2020 г. в результате совместных усилий нескольких исследовательских команд «Сбера» (в числе которых было и моё Управление экспериментальных систем машинного обучения департамента SberDevices) на свет появилась русскоязычная версия GPT-3 под названием ruGPT-3. Используя суперкомпьютер «Кристофари», мы обучили несколько версий модели (с числом весов от 125 млн до 13 млрд).

В обучающую выборку, помимо традиционного для GPT-3 подмножества корпуса Common Crawl (результата сплошного сканирования интернет-сайтов), вошла солидная подборка книг на русском языке, русскоязычная «Википедия», огромные коллекции новостей, научных статей и диалогов, подборки вопросов и ответов на различные темы и множество других наборов текстовых данных. Первые эксперименты с моделью показывают, что она довольно хорошо справляется с задачей генерации текстов самой различной тематики.

Рис. 146. Примеры генерации текстов от модели ruGPT-3

Рекламные тексты, гороскопы и жёлтые статьи[2586] в исполнении ruGPT-3 ничем не уступают настоящим. Впрочем, подобные тексты и при написании их людьми редко относятся к разряду шедевров. Однако ruGPT-3 неплохо подходит и для генерации образцов художественной литературы. Вот, например, литературный анекдот в стиле Хармса, сочинённый нейросетью:

Навсегда запомнилось Пушкину, как Гоголь стал матросом. Он вышел из кабака и заглянул в один кабак, заглянул в другой, потом пошел домой, постучал в свою мазанку и сказал: «Я матрос!»

В мае 2022 г. издательство Individuum выпустило весьма примечательный сборник рассказов под названием «Пытаясь проснуться». Его соавторами стали писатель Павел Пепперштейн и нейросеть «Нейропепперштейн», представлявшая собой специальную версию ruGPT-3, дообученную на текстах самого Пепперштейна с небольшой примесью текстов других авторов (оказавших, по мнению экспертов, влияние на авторский стиль писателя). Двенадцать рассказов в сборнике принадлежат перу человека и ещё двенадцать написаны нейросетью. Хотя эта книга и не стала первым примером содружества искусственных и «органических» писателей (в качестве иллюстрации можно привести вышедшую ещё в 2013 г. книгу Дарби Ларсона «Раздражитель» [Irritant][2587], в которой писатель использовал фрагменты текста, написанные генеративной LSTM-сетью, или созданную уже в трансформерную эпоху книгу Олли Грина «Робот Боб: Исследование Вселенной — Уютная сказка на ночь, созданная искусственным интеллектом» [Bob The Robot: Exploring the Universe — A Cozy Bedtime Story Produced by Artificial Intelligence][2588], написанную в 2020

1 ... 279 280 281 282 283 284 285 286 287 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?