litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 307 308 309 310 311 312 313 314 315 ... 482
Перейти на страницу:
нот, лишённого индивидуального стиля исполнителя? Быть может, удастся замахнуться и на большее? Быть может, такая модель сможет заодно воспроизводить и человеческое пение — чем голос не музыкальный инструмент, пусть и сложный? Так или иначе, всё многообразие звуков, составляющих в сумме музыку, сводится к колебаниям среды, которые можно описать в виде наборов чисел. С вычислительной точки зрения это, на первый взгляд, звучит совершенно фантастически. Однако в мире нашлись исследователи, которых это не испугало. Речь идёт о создателях модели Jukebox. В конце апреля 2020 г. в блоге компании OpenAI появилась статья[2979], описывающая доселе невиданную модель. Статья содержала ссылку на препринт исследования под названием «Jukebox: генеративная модель для музыки» (Jukebox: A Generative Model for Music)[2980], а также популярное объяснение принципов работы модели и примеры сгенерированных музыкальных произведений.

Jukebox получает на вход информацию о жанре, исполнителе, а также текст песни и генерирует на их основе готовое музыкальное произведение. Можно сказать, что Jukebox самостоятельно сочиняет и исполняет музыкальное произведение с заданным текстом в стиле заданного исполнителя. Выглядит как магия, не правда ли?

Типичная песня продолжительностью четыре минуты в CD-качестве (44 кГц, 16 бит) представляет собой последовательность из более чем 10 млн элементов. Современные модели на основе трансформеров способны «видеть» контекст длиною всего в несколько тысяч элементов. Этого совершенно недостаточно для того, чтобы «постичь» высокоуровневую музыкальную семантику. Одним из наиболее популярных инструментов глубокого обучения, предназначенных для борьбы с «проклятием размерности», являются автокодировщики. Автокодировщик может сжать оригинальный звук в пространство меньшей размерности, отбрасывая некоторые несущественные для восприятия части информации. Затем можно обучить модель генерировать звук в этом сжатом пространстве, а затем «развернуть» полученное латентное представление в исходное звуковое пространство при помощи декодера. В Jukebox роль автокодировщика выполняет усовершенствованная версия модели VQ-VAE. При этом используется сразу три уровня кодирования, которые сжимают исходный звук в 8, 32 и 128 раз соответственно. В зависимости от степени сжатия восстановленный звук становится всё более и более шумным, но даже сжатый в 128 раз сигнал сохраняет информацию о высоте тона, тембре и громкости звука.

Каждый уровень VQ-VAE кодирует вход независимо. Кодирование нижнего уровня (8 : 1) обеспечивает реконструкцию самого высокого качества, в то время как кодирование верхнего уровня (128 : 1) сохраняет только важную музыкальную информацию.

Каждому уровню VQ-VAE соответствует нейронная сеть для прогнозирования распределения вероятностей следующего элемента последовательности. Эти 72-слойные сети основаны на упрощённой версии блоков разреженного трансформера. Длина контекста каждой из сетей составляет 8192 элемента, что составляет для каждого из уровней 24 секунды, 6 секунд и 1,5 секунды соответственно. Модели более низкого уровня позволяют детализировать звук, внося в него более низкоуровневую структуру.

Для обучения Jukebox авторы исследования использовали набор данных, состоящий приблизительно из 1,2 млн песен (примерно половина из них была на английском языке) в сочетании с соответствующими текстами песен и метаданными (исполнитель, жанр альбома, год создания песни, распространённые ключевые слова и отметки настроения для плейлистов, содержащих песню), позаимствованными у проекта LyricWiki. Весь звук был преобразован в моно, при этом для аугментации данных исследователи добавляли в обучающую выборку несколько версий каждой из песен, немного варьируя пропорции при смешении каналов.

Сеть верхнего уровня получает на вход информацию об исполнителе и жанре песни. Помимо исполнителя и жанра, используется текст песни. Большой проблемой при этом является отсутствие хорошо согласованного набора данных: тексты песен обычно не содержат меток временного выравнивания относительно звукозаписи. То есть текстовые данные существуют в отрыве от звуковых — точно неизвестно, в какой момент поются те или иные слова (здесь могли бы помочь записи для караоке, но их сравнительно немного). Чтобы выровнять текст относительно звуковой дорожки, авторы применяют специальную модель для автоматического выравнивания, использование которой, впрочем, не всегда позволяет достичь идеальной точности.

В январе 2023 г. свою новую нейросеть для генерации музыки представили исследователи из Google. Сеть получила название MusicLM. Она способна генерировать аудиозаписи с частотой дискретизации 24 кГц на основе текстовых описаний, таких как «успокаивающая мелодия скрипки, сопровождаемая гитарным риффом с дисторшн-эффектом» [a calming violin melody backed by a distorted guitar riff]. Авторы модели также опубликовали набор данных MusicCaps, состоящий из 5 521 пары «текстовое описание — музыка»[2981].

Несмотря на то что Jukebox и MusicLM стали большими шагами вперёд в отношении качества музыки и возможности управлять результатами композиции, разрыв между созданной ими музыкой и музыкой, сочинённой и исполненной людьми, всё ещё значителен. Хотя сгенерированные песни демонстрируют локальную музыкальную согласованность, следуют традиционным последовательностям аккордов и даже могут содержать впечатляющие соло, в них отсутствуют характерные признаки крупномасштабной семантической структуры (например, припевы). Автокодировщики нередко вносят в звуковой ряд заметный шум. Кроме того, скорость синтеза чрезвычайно медленная. В экспериментах авторов модели для создания одной минуты звука требовалось около 9 часов, поэтому Jukebox пока что нельзя использовать в интерактивных приложениях. Помимо этого, модель может сочинять песни только на английском языке. И всё же в числе отобранных авторами исследования композиций есть замечательные образцы. Чего стоят хотя бы ожившие голоса Луи Армстронга и Фрэнка Синатры, поющие современные тексты в своём узнаваемом стиле! При этом прелесть ИИ заключается в том, что в будущем результаты будут только улучшаться. Талантливый композитор или исполнитель не столь долговечен, как человеческие знания и технологии. Композиторы и исполнители современности не всегда могут достичь столь же выдающихся результатов, как их предшественники, в отношении же моделей машинного обучения технический прогресс обещает нам движение только вперёд, без отступлений и компромиссов.

6.6.12 Машина создаёт всё: мультимодальные модели

В конце 2020 г. исследователи из Microsoft обнародовали работу, посвящённую созданию модели M3P (Multitask Multilingual Multimodal Pre-training, Многозадачное многоязычное мультимодальное предобучение)[2982]. Здесь мы снова, как и в случае с моделью Z-code M3, видим в названии три M, но теперь третья M обозначает не MoE, а мультимодальность. Таким образом, вероятно, в отношении некоторых моделей уже сейчас можно употребить термин M4: например, WuDao 2.0 является одновременно многозадачной, многоязычной, мультимодальной и MoE-моделью.

Вышедшая в мае 2022 г. работа[2983] исследователей из DeepMind под лаконичным названием «Универсальный агент» [A Generalist Agent] представила миру модель под названием Gato (gato по-испански означает «кот»; в статье это название никак не расшифровывается). Модель обучали выполнению 604 различных задач, в числе которых ведение диалога, написание подписей к изображениям, игра в игры Atari и даже складывание блоков при помощи роборуки. Хотя модель по современным меркам была весьма небольшой (всего 1,2 млрд параметров), она смогла превзойти людей в 450

1 ... 307 308 309 310 311 312 313 314 315 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?