litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 304 305 306 307 308 309 310 311 312 ... 482
Перейти на страницу:
1966 г. основал в Париже Группу математики и автоматики музыки (Equipe de Mathématique et d’Automatique Musicales), ставшую с 1972 г. Центром изучения математики и автоматики музыки (Centre d’Etudes Mathématiques et Automatique Musicales).

Благодаря своим успехам Ксенакис стал одним из лидеров музыкального авангардизма второй половины XX в. В стохастических системах, созданных Ксенакисом, роль «языковой модели» выполняли различные алгоритмы. Например, для сочинения «Аналогии А/В» (Analogique A Et B, 1959) применялись марковские цепи, для «Атрея» (Atrées, 1962) — алгоритм, основанный на распределении Гаусса, для «Пифопракты» (Pithoprakta, 1956) — основанный на распределении Максвелла и так далее. Помимо музыкальных композиций, Ксенакис создавал также аудиовизуальные[2944]. Если Хиллер и Исааксон стремились полностью передать творческий процесс машине, то у Ксенакиса машина обычно выступает в роли умного инструмента композитора, его алгоритмического соавтора[2945].

Со времён первых экспериментов в области автоматизации музыкальной композиции было создано множество различных моделей и систем, обычно относящихся или к стохастическому подходу, или к подходу, основанному на правилах, при этом в конкретных системах эти два подхода вполне могли сочетаться. Например, стохастические модели могли использоваться для создания «исходных материалов» в системах, использующих правила. Однако в целом прогресс был достаточно скромным. По крайней мере, музыке, сочинённой машинами, не удалось завоевать ни какую-то особую массовую популярность, ни сердца музыкальных критиков. Прогресс в этом направлении наметился на заре эры глубокого обучения. Вполне ожидаемым стало то, что заметный шаг вперёд в области глубоких генеративных музыкальных моделей удалось сделать при помощи LSTM-сетей.

Надо отметить, что первые попытки использовать рекуррентные нейронные сети для генерации музыки были предприняты ещё в конце 1980-х гг. Однако музыкальные произведения, сочинённые «ванильными» (стандартными) RNN, страдали от отсутствия глобальной структуры: хотя такие сети хорошо «схватывали» краткосрочные зависимости — выучивали вероятности перехода от одной ноты к другой и даже воспроизводили небольшие музыкальные фразы, но попытки освоить крупномасштабную структуру произведений (музыкальную форму) и использовать эти долгосрочные зависимости для управления композицией оказались безуспешными. Причина этих неудач заключалась, по всей видимости, в том, что классические архитектуры RNN не были способны устанавливать связь между отдалёнными по времени событиями, составляющими глобальную музыкальную структуру. Это было типичной проблемой RNN в различных областях применения, и LSTM была архитектурой, предназначенной для компенсации именно этой слабости рекуррентных сетей.

В 2002 г. Дуглас Экк и Юрген Шмидхубер опубликовали работу под названием «Первый взгляд на музыкальную композицию с использованием рекуррентных нейронных сетей LSTM» (A First Look at Music Composition using LSTM Recurrent Neural Networks)[2946]. Авторы использовали довольно простое представление музыки: каждой восьмой доле соответствовал вектор размерностью 25 (13 позиций в нём соответствовали нотам мелодии, а 12 — нотам аккорда). В каждой позиции вектора значение 1 соответствовало звучанию соответствующей ноты (0 — отсутствию звучания). Этот способ представления данных напоминает механизмы хранения мелодии, применяемые в механических пианино (пианолах). В конце XIX — начале XX в. появились пианолы, клавиши которых управлялись при помощи бумажных перфорированных лент. Отверстие в определённой позиции очередного ряда ленты соответствовало нажатию соответствующей клавиши пианолы. Поэтому представление музыки в виде последовательности векторов, состоящих из нулей и единиц, обычно так и называют — ролики для пианолы [piano roll].

В некоторых из экспериментов, произведённых авторами статьи, результирующий вектор мог преобразовываться таким образом, чтобы его среднее значение было равно нулю, а стандартное отклонение — единице. Понятно, что такое представление было крайне упрощённым (например, нельзя было использовать ноты длительностью менее ⅛ или композиции, содержащие партии нескольких инструментов), однако Экк и Шмидхубер стремились в первую очередь доказать жизнеспособность концепции. Обучающая выборка формировалась на основе набора из 4096 блюзовых композиций. Сама сеть была по нынешним меркам игрушечной — она содержала четыре LSTM-блока по две ячейки в каждом. Однако даже такая небольшая сеть смогла продемонстрировать способность «улавливать» глобальную структуру произведения.

В конце 2000-х было опубликовано ещё несколько работ, развивавших подход Экка и Шмидхубера[2947], [2948]. Впрочем, как случалось неоднократно с работами Шмидхубера и его учеников, их исследования несколько опередили время, поэтому до поры до времени оставались практически не замеченными другими исследователями. Взрывной рост интереса к глубоким нейронным сетям в 2010-е гг. привёл к новым, более масштабным исследованиям в области алгоритмической композиции. Двумя работами, которым удалось привлечь внимание широкой общественности, стали модели folk-RNN и Deep Bach. В основе обеих вновь лежали LSTM-сети.

Модель folk-RNN была представлена общественности в работе 2015 г. под названием «Стилистическое моделирование фолк-музыки при помощи рекуррентных нейронных сетей с блоками долгой краткосрочной памяти» (Folk Music Style Modelling by Recurrent Neural Networks with Long Short Term Memory Units)[2949]. Её авторами были Боб Штурм из Центра цифровой музыки Лондонского университета королевы Марии (Queen Mary University of London, QMUL), Жоао Сантос из Национального научно-исследовательского института (Institut national de la recherche scientifique, INRS) в Канаде и Ирина Коршунова из Гентского университета (Universiteit Gent, UGent) в Бельгии.

Авторы работы использовали обучающую выборку из почти 24 000 фолк-произведений с сайта thesession.org в ABC-формате, представляющем собой специализированный язык разметки мелодий (так называемых тюнов [tunes]) в фолк-музыке. Для обозначения нот используются буквы латинского алфавита: C, D, E, F, G, A, B (до, ре, ми, фа, соль, ля, си). Кроме этого, в записи могут присутствовать различные управляющие последовательности для кодирования специальных символов (текстов песен, надстрочных знаков, акцентов и т. д.), а также информационные поля, определяющие размер, темп, тональность, название композиции и так далее.

При подготовке данных исследователи отбросили лишние поля, оставив лишь тональность, размер, основную длительность нот и сами ноты. Представление мелодии было основано на словаре, содержавшем 134 токена (каждый токен был отдельным символом или сочетанием из нескольких символов, составляющих некоторое лексическое целое). Словарю соответствовал one-hot-вектор необходимой размерности. Архитектура модели содержала три скрытых слоя по 512 блоков LSTM в каждом и выходной слой на базе softmax.

Чтобы оценить качество созданных мелодий, Штурм и его коллеги предложили группе профессиональных музыкантов, специализирующихся на традиционной ирландской музыке, создать альбом, взяв за основу произвольные мелодии из набора, включавшего как обучающую выборку, так и 100 000 алгоритмически сгенерированных мелодий. В результате появился альбом, в котором более половины музыки было создано машиной. Штурм и его коллеги опубликовали альбом в интернете, чтобы получить отзывы и комментарии профессионалов и общественности. «Нам пришлось придумать историю происхождения альбома, чтобы избежать предвзятости, которая может возникнуть, если кто-то считает, что творческий продукт был создан компьютером, — вспоминал Штурм. — И вот теперь, когда у нас есть обзоры, мы

1 ... 304 305 306 307 308 309 310 311 312 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?