Шрифт:

Интервал:

Закладка:

Сделать

1 ... 306 307 308 309 310 311 312 313 314 ... 482

Перейти на страницу:

найти мелодический оборот, либо аккорд, либо тембр. И это найденное начинает, как бы, обрастать. В этом поиске всегда состоит трудность. А в этом случае было легче. Эти зёрна уже были заданы. Я получил кирпичики, из которых начал строить здание. Это можно назвать соавторством, потому что мелодические линии были предложены не мной, а нейронной сетью»[2966].

Среди отечественных исследований, посвящённых генерации музыки при помощи нейросетевых моделей, следует отметить также выпускную квалификационную работу Сергея Иванова, выполненную им на факультете вычислительной математики и кибернетики МГУ под руководством профессора Дьяконова[2967]. Предлагаемая автором модель, обученная на подборке произведений с сайта classicalarchives.com, основана на комбинации LSTM-сети, оснащённой механизмом внимания, с RBM-сетью (ограниченной машиной Больцмана). Эта модель показала неплохой результат на соревнованиях по созданию музыки при помощи ИИ [AI‑generated Music Challenge], организованных в 2017 г. на платформе crowdAI Федеральной политехнической школой Лозанны (École Polytechnique Fédérale de Lausanne)[2968]. К сожалению, оценка сгенерированной музыки в ходе соревнований была основана только на автоматизированной метрике.

Вполне закономерным результатом второй революции в обработке естественного языка было появление музыкальных генеративных моделей, основанных на трансформерах. Первой такой моделью стало новое творение Magenta (кстати говоря, среди ведущих исследователей этой лаборатории — уже знакомый нам пионер нейросетевой генеративной музыки Дуглас Экк), модель под незатейливым названием «Музыкальный трансформер» (Music Transformer)[2969]. Авторы использовали датасет классической фортепианной музыки под названием Piano-e-Competition, содержащий около 1100 музыкальных произведений[2970]. В ходе эксперимента по оценке качества музыкальных произведений создатели музыкального трансформера использовали по десять мелодий, созданных двумя версиями модели (с двумя разными типами механизма внимания — с абсолютным и относительным способом кодирования позиции токена), десять мелодий, созданных моделью на основе LSTM, и десять мелодий, написанных людьми. В эксперименте участвовало, к сожалению, всего три оценщика, в итоге было осуществлено 160 попарных сравнений с использованием шкалы Ликерта, включающей пять возможных значений оценки степени согласия с некоторым утверждением (в данном случае с утверждением, что композиция A является более мелодичной [musical], чем композиция B): полностью не согласен, не согласен, где-то посередине, согласен, полностью согласен. В итоге лучшей из двух версий трансформера удалось победить LSTM (52 победы в сравнениях против 39), с небольшим отставанием от музыки, сочинённой людьми (61 победа в сравнениях). Согласно подсчётам авторов (включавших среди прочего поправку на множественную проверку гипотез, что является признаком весьма качественного статистического исследования; такая проверка позволяет учесть возможность того, что статистически значимый результат был получен случайно — лишь потому, что исследователи перебрали очень много гипотез), превосходство трансформерной модели с относительным кодированием позиции токена над моделью с абсолютным кодированием позиции токена оказалось статистически значимым, однако статистически значимое превосходство над LSTM ей показать не удалось, что неудивительно при таких скромных объёмах выборки. Конечно, в исследованиях, претендующих на уровень SOTA, хотелось бы видеть эксперименты с большим количеством оценщиков.

В начале 2020 г. на свет появился Pop Music Transformer, описанный в статье Ю-Сян Хуана и И-Сюань Яна под названием «Трансформер для поп-музыки: моделирование на основе тактовых долей [beat-based] и создание выразительных поп-композиций для фортепиано» (Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions)[2971].

Основой данного музыкального трансформера стала популярная модель для моделирования естественного языка под названием Transformer-XL. В качестве обучающего датасета был использован набор из 775 фортепианных композиций. Изюминкой модели стало новое представление музыкальных данных, получившее название REMI (REvamped MIdi-derived events, Скорректированные события, полученные из MIDI-представления). MIDI (Musical Instrument Digital Interface, Цифровой интерфейс музыкальных инструментов) — стандартный формат для обмена данными между электронными музыкальными инструментами. Музыка в формате MIDI представлена в виде последовательности событий [events], которыми могут быть нажатия клавиш, выбор тембра, темпа, тональности и так далее.

Основная идея REMI заключается в том, чтобы в явном виде добавить в представление информацию о начале каждого такта и его долей. Получив на вход информацию о временной сетке произведения в явном виде, трансформер, как оказалось, способен обучаться гораздо эффективнее. К сожалению, в ходе эксперимента по оценке качества музыки авторы исследования сравнивали свои результаты только с результатами различных вариантов обычного музыкального трансформера (который им весьма убедительно удалось превзойти).

В целом наиболее продвинутой, основанной на трансформерах генеративной моделью для музыки является MuseNet от OpenAI. Её архитектура основана на тех же принципах, что и текстовые генеративные модели GPT-2 и GPT-3 (в MuseNet, как и в GPT-3, используются блоки разреженного трансформера). Длина контекста 72-слойной модели составляет 4096 токенов. По примерным прикидкам, в MuseNet должно быть около 2–3 млрд весов.

Для обучения модели был создан огромный датасет MIDI-файлов, в который вошли коллекции classicalarchives.com и bitmidi.com, датасет MAESTRO[2972], а также ряд тематических и этнических сборников MIDI-музыки, собранных авторами в интернете. Этот датасет был затем дополнительно аугментирован путём небольших изменений темпа. Также в модель был включён специальный механизм, предназначенный для снижения вероятности прямого плагиата, когда модель просто воспроизводит достаточно длинные фрагменты, представленные в обучающей выборке. К сожалению, хотя MuseNet и можно воспользоваться онлайн, информация о самой модели в настоящее время ограничивается лишь популярным постом[2973] в блоге OpenAI, то есть препринт исследования не был опубликован. Будем надеяться, что OpenAI рано или поздно поделится с сообществом деталями своих экспериментов.

В целом генеративные музыкальные модели, работающие на уровне нотного текста, стали в наши дни помощниками композиторов, а иногда способны и на создание вполне самостоятельных произведений на уровне лучших композиторов. В 2019 г. впервые в истории был подписан контракт между крупным музыкальным лейблом (Warner Music) и компанией, создавшей систему для алгоритмической генерации музыки — Endel[2974].

Семейство генеративных музыкальных моделей SymFormer, работающих в нотном домене, создано у нас в Управлении экспериментальных систем машинного обучения департамента SberDevices «Сбера» командой под руководством Алексея Минина[2975], [2976]. С творчеством этих нейросетей можно познакомиться в сервисе «Звук», где оно размещается от имени нейросетевого ансамбля Aiphoria[2977].

Концерт, где генеративная нейросеть впервые в мире стала солистом и импровизатором, состоялся в рамках культурной программы Восточного экономического форума (ВЭФ) в сентябре 2023 г. Это выступление стало результатом нашей совместной работы с известным российским музыкантом и композитором Петром Дрангой[2978].

Но нельзя ли добиться столь же впечатляющих результатов, работая с акустическими данными? В конце концов, мы же упоминали, что модель WaveNet, обученная на записях фортепианных концертов, способна на самостоятельную импровизацию? Почему бы не избавиться раз и навсегда от всех этих библиотек инструментов и математически точного исполнения

1 ... 306 307 308 309 310 311 312 313 314 ... 482

Перейти на страницу:

Тайна древнего бальзама мумие-асиль - Адыль Шарипович Шакиров

2021
Медицина

ООО "Кремль". Трест, который лопнет - Андрей Колесников

2021
Политика

Психология согласия. Революционная методика пре-убеждения - Роберт Бено Чалдини

2021
Разная литература / Бизнес / Психология

Фантастика 2024-84 - Константин Давидович Мзареулов

2021
Научная фантастика / Разная литература

Биология для тех, кто хочет понять и простить самку богомола - Андрей Шляхов

2021
Домашняя

Комментарии

Минимальная длина комментария - 20 знаков. Уважайте себя и других!

Комментариев еще нет. Хотите быть первым?

Смотрите также:

Тайна древнего бальзама мумие-асиль - Адыль Шарипович Шакиров

ООО &quot;Кремль&quot;. Трест, который лопнет - Андрей Колесников

Психология согласия. Революционная методика пре-убеждения - Роберт Бено Чалдини

Фантастика 2024-84 - Константин Давидович Мзареулов

Биология для тех, кто хочет понять и простить самку богомола - Андрей Шляхов

ООО "Кремль". Трест, который лопнет - Андрей Колесников