Шрифт:
Интервал:
Закладка:
В июле 2023 г. свет увидела вторая версия модели (Llama 2), доступная сегодня в трёх вариантах: с 7, 13 и 70 млрд параметров[2658].
Популярными альтернативами LLaMA при создании аналогов ChatGPT являются модели семейства MPT[2659] от компании MosaicML и уже упомянутая нами модель Falcon[2660], [2661] от Института технологических инноваций (Technology Innovation Institute). Большой интерес с прикладной точки зрения представляют также модели Qwen от исследователей из Alibaba Cloud (7 млрд параметров, обучалась на 2,2 трлн токенов)[2662], Baichuan 2 (две версии: 7 и 13 млрд параметров, обучались на 2,6 трлн токенов)[2663], Mistral от стартапа Mistral AI (7 млрд параметров; обучалась на неизвестном наборе данных)[2664], Persimmon от исследователей из компании Adept (8 млрд параметров, обучалась на 737 млрд токенов)[2665] и Yi[2666] от китайского стартапа 01.ai (6 и 34 млрд параметров, обучалась на 3 млрд токенов). Несмотря на небольшой размер, в ряде тестов они показывают весьма достойные результаты. Например, модель Mistral с 7 млрд параметров почти на 5 процентных пунктов (60,1% против 55,6%) обгоняет на наборе тестов MMLU версию модели LLaMA с 13 млрд параметров. Не менее впечатляющих результатов удалось добиться группе исследователей из компании Microsoft, разработавших модель phi-1.5 (новую версию модели phi-1) с 1,3 млрд параметров. При обучении модель прошла только 150 млрд токенов (5 проходов по датасету из всего лишь 30 млрд токенов, что очень мало по сравнению со многими другими языковыми моделями), однако благодаря тщательному отбору данных для предобучения phi-1.5 в ряде тестов обгоняет трансформерные модели с 7 и даже с 13 млрд параметров, что показывает исключительную важность использования качественных данных при разработке фундаментальных моделей. Создатели phi неслучайно озаглавили свои статьи «Всё, что нужно, — это учебники» [Textbooks Are All You Need][2667] и «Всё, что нужно, — это учебники II: технический отчёт по модели phi-1.5» [Textbooks Are All You Need II: phi-1.5 technical report][2668].
Впрочем, некоторые исследователи отнеслись к результатам коллег из Microsoft с недоверием. Через два дня после выхода работы, посвящённой phi-1.5, аспирант из Стэнфордского университета Райлан Шеффер выложил на arXiv пародийный препринт под названием «Предобучение на тестовом наборе — это всё, что вам нужно» [Pretraining on the Test Set Is All You Need][2669], в котором рассказал о создании модели Phi-CTNL (читается как fictional, т. е. «вымышленный»). По словам автора, модель достигает 100%-ной точности на ряде публичных тестовых наборов задач благодаря... качеству данных![2670] А именно — добавлению в обучающую выборку всех вопросов из публичных тестов, а также правильных ответов к ним! Таким образом Шеффер намекнул, что специально подготовленные обучающие данные моделей phi очень уж похожи на тесты, использованные для их оценки. Шеффер не был первым из специалистов в области машинного обучения, привлекших внимание к проблеме «протечки» [leakage] тестовых заданий в обучающие выборки фундаментальных моделей[2671]. Причём такого рода протечки обычно бывают неумышленными — такие задания могут оказаться в обучающей выборке в процессе автоматического сбора информации в Сети. Чтобы исключить подобное, в тестовые наборы данных часто включают какую-либо уникальную длинную последовательность символов, и если обученная модель «помнит» эту последовательность — это верный признак «протечки».
Впрочем, с самой идеей важности использования качественных данных для обучения фундаментальных моделей вряд ли кто-то может поспорить. Она подтверждается многочисленными экспериментами в области обучения современных LLM[2672], [2673]. В последнее время исследователи уделяют большое внимание созданию качественных публичных датасетов для обучения больших языковых моделей, подобных, например, Slim Pajama[2674] и CulturaX[2675].
Итак, рецепт изготовления вашего собственного аналога ChatGPT выглядит следующим образом:
1. Взять предобученную языковую модель. Это может быть LLaMA или, например, наша ruGPT-3.5 (если для вас важно, чтобы ответы модели на русском языке были более грамотными и точными).
На этом этапе модель уже очень много знает о мире, но пока ещё недостаточно хорошо умеет отвечать вам в правильной форме — то есть при помощи диалоговых реплик, содержащих по возможности наиболее полные решения поставленных перед моделью задач.
2. Выполнить процесс дообучения модели, который обычно называют SFT (Supervised fine-tuning, Дообучение с учителем). Это весьма ответственная задача, поскольку для её реализации требуется собрать очень качественный набор обучающих данных в инструктивной форме. Они могут выглядеть примерно так:
Вопрос: Дай ответ на главный вопрос жизни, Вселенной и всего такого.
Ответ: Ответ на главный вопрос жизни, Вселенной и всего такого был представлен в научно-фантастическом романе Дугласа Адамса «Автостопом по галактике». В книге суперкомпьютер по имени «Глубокий мыслитель» (Deep Thought) вычислил этот ответ, и он равен 42. Однако сам вопрос, на который отвечает число 42, так и остался неизвестным. Это стало источником юмора и символом парадокса в поиске смысла жизни и Вселенной.
Инструктивные данные не только задают форму ответов модели, настраивая её отвечать подобным образом, но и влияют на её «систему ценностей». Например, для того, чтобы модель не грубила в ответ на грубости пользователя, в инструктивный датасет специально добавляют примеры с вежливыми ответами на невежливые реплики пользователя. Задача разработки специализированного этического подмножества для инструктивного датасета — одна из важнейших задач при проектировании генеративной модели, предназначенной для массового применения. Некоторые ответы модели могут быть не такими уж