Шрифт:
Интервал:
Закладка:
Рис. 141. Пример графика выравнивания
На современных GPU типа GTX 1080 или GTX 2080 модели, подобные «Такотрону», обычно начинают говорить менее чем через сутки после начала обучения, при этом более-менее надёжные результаты можно получить при наличии в обучающей выборке 10–20 часов качественных и аккуратно размеченных аудиозаписей.
Авторы «Такотрона» смогли воплотить в жизнь принцип одновременного решения сетью основной и вторичной задачи (генерация моделью и линейной, и мел-спектрограммы), до этого без особого успеха опробованный эдинбургскими исследователями. Как уже упоминалось выше, для реконструкции аудиосигнала из линейной спектрограммы используется преобразование Гриффина — Лима, названное в честь авторов статьи[2398], в которой этот метод был первоначально описан, — Дэниэла Гриффина и Чжэ Су Лима. Дело в том, что для того, чтобы преобразовать спектрограмму обратно в последовательность амплитуд, нужно каким-то образом восстановить информацию о фазе каждого из колебаний, что не является тривиальной задачей. Быстрое преобразование Фурье в нашем случае сокращает размерность данных и является преобразованием с потерями. Восстановление исходного сигнала с минимизацией потерь — задача сложная и вычислительно затратная. Метод Гриффина — Лима — сравнительно «дешёвая» альтернатива WaveNet (особенно при правильной реализации), однако речевой сигнал при прохождении через такое преобразование подвергается специфическим искажениям — в нём возникают слышимые артефакты. Это было одной из причин, по которой «Такотрон» хотя и позволил несколько улучшить качество параметрического синтеза, однако добиться высот, продемонстрированных вокодером WaveNet с механизмом обусловливания, с первого подхода ему не удалось (в статье указано на увеличение MOS до 3,82 ± 0,085 с 3,69 ± 0,109 у параметрической модели Хейги Дзэна, использованной в качестве эталона; обратите внимание на то, что нижняя граница доверительного интервала оценки «Такотрона» смыкается с верхней границей оценки для эталонной параметрической модели).
Результат оказался даже несколько хуже, чем у использованной авторами для сравнения конкатенативной модели (4,09 ± 0,119).
«Такотрон» не был первой моделью, основанной на подобных принципах. К моменту публикации препринта статьи его создателей, уже в числе материалов, заявленных для выступления на Международной конференции по обучению представлений (International Conference on Learning Representations, ICLR) в 2017 г., была статья[2399] Хосе Сотело и его коллег (среди которых был, между прочим, и Йошуа Бенджио), посвящённая описанию модели под названием Char2Wav, основанной на классической seq2seq-парадигме. Однако в Char2Wav вокодер SampleRNN[2400] обучался отдельно от основной модели, а классическая seq2seq-модель без модификаций, внесённых авторами «Такотрона», не позволила обеспечить столь же высокое качество синтеза.
В том же 2017 г., опередив примерно на месяц создателей «Такотрона», результаты своей работы над аналогичной моделью Deep Voice [Глубокий голос] опубликовали[2401] исследователи из компании Baidu, в числе которых был уже известный нам Эндрю Ын. В качестве вокодера авторы Deep Voice использовали собственную модифицированную версию WaveNet, позволяющую при некоторых параметрах достичь синтеза в реальном времени (или даже быстрее). Однако авторы Deep Voice обучали различные компоненты своей комплексной модели (модель G2P, т. е. grapheme-to-phoneme, модель длительности фонем и модель величины F0, а также вокодер) по отдельности, что дало основание создателям «Такотрона» назвать свою модель первой сквозной нейросетевой системой синтеза.
Сквозной нейросетевой системой синтеза можно было бы считать модель, предложенную ещё в 2016 г. Венфу Ваном и его коллегами, однако для её обучения необходимо было сначала получить выравнивания фонем для обучающего корпуса, что достигалось при помощи скрытой марковской модели.
И всё-таки «Такотрон» трудно назвать полностью сквозной нейросетевой системой синтеза речи. От полностью сквозной системы можно было бы ожидать, что она будет выполнять преобразование текста в последовательность амплитуд звукового сигнала без использования прямых и обратных спектральных преобразований, работая не в частотно-временном, а во временном пространстве. Все промежуточные преобразования такая модель будет осуществлять при помощи единой нейросетевой архитектуры.
В качестве шагов в этом направлении можно рассматривать появление таких моделей, как «Такотрон-2» (2018)[2402] (здесь место вокодера занял WaveNet, получающий на вход мел-спектрограмму речевого сигнала). Эта модель смогла существенно обойти в качестве синтеза не только свою предшественницу, но и конкатенативный синтез и WaveNet, получающий на вход лингвистические признаки речевого сигнала. Результаты экспериментов по оценке качества синтеза, опубликованные авторами «Такотрона-2», приведены в таблице ниже (для обучения всех моделей использовался тот же набор данных, что и в работе по первой версии «Такотрона»).
Как видно из таблицы, синтезированная «Такотроном-2» речь по своему качеству уже вплотную приблизилась к естественной.
Параллельно с этим развивались и другие системы — авторы Deep Voice ещё в 2017 г. «прикрутили» WaveNet к оригинальной версии «Такотрона» и продемонстрировали существенный прирост качества синтеза. Также они выпустили новую версию[2403] собственной модели, получившую название Deep Voice 2, и осуществили с ней эксперименты по обучению способности говорить сразу несколькими голосами [multi-speaker]. Дальнейшее развитие привело к созданию в последние годы новых моделей: VoiceLoop[2404], Deep Voice 3, FastSpeech[2405], Transformer TTS, различных модификаций «Такотрона-2» с современными нейросетевыми вокодерами. Они способны генерировать речь с качеством, практически неотличимым от естественной человеческой речи. При помощи таких моделей воссоздают голоса знаменитостей и артистов прошлого (ваш покорный слуга также является участником ряда подобных проектов — ещё в 2017 г. при помощи модели, основанной на «Такотрон» и «Такотрон-2», мы воссоздали голос Иннокентия Михайловича Смоктуновского), создают голоса виртуальных помощников и диалоговых систем, действующих в голосовых каналах.
6.4.9 Направления новых исследований
Развитие технологий не стоит на месте, и сегодня исследования в области синтеза речи ведутся в нескольких направлениях. Рассмотрим некоторые из них.
Одним из важных требований, предъявляемых к TTS-системам, является возможность гибкого управления параметрами синтезируемой речи. Вот некоторые из таких параметров.
1. Темп речи. Для управления темпом речи могут использоваться алгоритмы семейства PSOLA (Pitch Synchronous Overlap and Add, Синхронное пересечение и добавление высот)[2406], известные с конца 1980-х гг. Они позволяют изменить темп, не меняя тональность звука.