litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 252 253 254 255 256 257 258 259 260 ... 482
Перейти на страницу:
Однако это исследование[2372] осталось практически незамеченным — сети Элмана, в отличие от LSTM-сетей, обладали рядом существенных недостатков, и добиться значительного преимущества по сравнению с классическими методами в тот момент не удалось. Кроме того, использование тонового китайского языка в качестве модельного затрудняло оценку работы со стороны западных исследователей. В общем, революция глубокого обучения в области синтеза речи началась лишь в первой половине 2010-х.

В 2012 г. в журнале IEEE Signal Processing Magazine появилась статья, подписанная 11 авторами из IBM, Google, Microsoft и Университета Торонто (последний был представлен уже знакомым нам Джеффри Хинтоном и его аспирантами). Статья называлась «Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырёх исследовательских групп» (Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups). Даже беглое чтение этой работы приводило к очевидной мысли: век скрытых марковских моделей в акустическом моделировании закончился. Если это произошло в области распознавания речи, значит, скорее всего, произойдёт и в области синтеза. И действительно, с 2013 г. начинается лавинообразный рост числа публикаций, в которых авторы пробуют применять глубокие нейронные сети в системах как параметрического, так и конкатенативного синтеза.

Кратко рассмотрим некоторые из важных работ, написанных в этот период.

В 2013 г. на Международной конференции по акустике, обработке речи и сигналов (International Conference on Acoustics, Speech, and Signal Processing, ICASSP) Хейга Дзэн и его коллеги из Google представили доклад под названием «Статистический параметрический синтез речи на основе глубоких нейронных сетей» (Statistical parametric speech synthesis using deep neural networks)[2373]. В нём в качестве замены комбинации деревьев решений со скрытыми марковскими моделями исследуются полносвязные нейронные сети (вплоть до пятислойных) с сигмоидальными функциями активации. Для оценки результатов использовались парные сравнения 173 предложений, синтезированных с применением старого и нового подходов. Каждая пара предложений оценивалась пятью оценщиками, при этом каждый из оценщиков, участвовавших в эксперименте, выполнял не более 30 сравнений. Хотя число параметров старой и новой модели было равным, новая модель уверенно обошла старую.

На той же конференции Шийин Кан и его коллеги из Лаборатории человеко-компьютерных коммуникаций (Human Computer Communications Laboratory) Китайского университета Гонконга представили собственное исследование[2374], в котором использовали в параметрической системе синтеза комбинацию глубоких сетей доверия со скрытыми марковскими моделями. Для оценки качества синтеза применялась усреднённая субъективная оценка (MOS, мы упоминали эту метрику в главе, посвящённой машинному переводу) по пятибалльной шкале. По сравнению с базовым подходом, основанным на использовании только скрытых марковских моделей, удалось добиться улучшения метрики с 2,86 до 3,09 балла (правда, оценка производилась лишь по десяти образцам речи от каждой из моделей десятью оценщиками).

В том же году в журнале IEEE Transactions on Audio, Speech, and Language Processing была опубликована совместная работа[2375] исследователей из Microsoft и Национальной инженерной лаборатории по обработке языковой и речевой информации (National Engineering Laboratory of Speech and Language Information Processing) Университета науки и технологий Китая (University of Science and Technology of China, USTC), в которой также исследовались возможности комбинации скрытых марковских моделей с глубокими сетями доверия и ограниченными машинами Больцмана. Здесь авторы использовали попарные сравнения (50 предложений от каждой из оценивавшихся моделей и пять оценщиков) и продемонстрировали статистически значимое превосходство новых подходов (ограниченные машины Больцмана показали несколько лучший результат, чем глубокие сети доверия, однако разница между ними не была статистически значимой).

Далее, отталкиваясь от результатов, полученных Хейгой Дзэном и его коллегами, учёные из Центра исследования речевых технологий (Centre for Speech Technology Research) Эдинбургского университета изучили[2376] различные виды представлений параметров на входе модели, предсказывающей входные параметры вокодера в SPSS-системе. Это была обобщающая работа, где авторы опробовали разные подходы и методы, в результате им удалось улучшить системы, основанные на скрытых марковских моделях. Хотя авторы и не смогли создать нейросетевую систему синтеза, которая оказалась бы лучше системы, основанной на скрытых марковских моделях, тем не менее их работа указала верное направление для дальнейших исследований в области нейросетевого синтеза речи.

В 2014 г. группа исследователей из Microsoft повторила успех Хейги Дзэна и его коллег из Google, применив в качестве классификатора полносвязную сеть с тремя обучаемыми слоями по 1024 нейрона в каждом. Они использовали небольшой обучающий корпус размером около пяти часов речи (на корпусах подобного или меньшего размера методы статистического параметрического синтеза в то время могли продемонстрировать превосходство над системами синтеза, основанными на unit selection). При этом авторы показали, что при применении сети меньшего размера (три обучаемых слоя по 512 нейронов) система нейросетевого синтеза речи не в состоянии статистически достоверно превзойти использованную в качестве эталона систему синтеза, основанную на скрытых марковских моделях[2377]. В том же году этот же коллектив авторов представил на конференции Interspeech-2014 работу[2378], в которой было показано, что комбинированная архитектура, сочетающая полносвязную и рекуррентную двунаправленную LSTM-сеть, позволяет получить ещё более качественные результаты синтеза.

На конференции Interspeech-2015 Рауль Фернандес и его коллеги из компании IBM продемонстрировали, что при использовании метода unit selection двунаправленная LSTM-сеть лучше справляется с выбором элементов в фонетической базе, чем «донейронный» алгоритм (в качестве базы для сравнения применялись «леса случайных деревьев» [random forest]). Фернандесу и его коллегам удалось добиться улучшения величины этой метрики на 0,29 пункта (с 3,18 до 3,47; для автоматизированной слепой оценки было использовано 40 фраз и 19 оценщиков)[2379].

В 2015 г. на конференции ICASSP-2015 исследователи из уже знакомого нам Центра исследования речевых технологий Эдинбургского университета представили собственную систему нейросетевого параметрического синтеза речи, которая на этот раз смогла уверенно обойти эталонную скрытую марковскую модель. При этом авторы изобрели своеобразную нейросетевую архитектуру, в которой полносвязная сеть имела в числе своих слоёв один слой с меньшим числом нейронов, представляющий собой своеобразное «бутылочное горлышко». Значения сигналов, возникшие в этом слое на шаге x, передавались на специально выделенные для этой цели нейроны входного слоя сети на шаге x + 1. В некотором роде авторы, таким образом, переизобрели рекуррентные нейронные сети. Также авторы, стремясь уйти от трудоёмких попарных сравнений образцов синтезированной речи, изобрели собственную методику оценки качества синтеза, получившую название MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor, Множественные стимулы со скрытой точкой отсчёта и якорем).

В тесте приняли участие 15 оценщиков — носителей английского языка без диагностированных нарушений слуха. Каждому из них было предложено оценить 20 наборов, которые были случайно отобраны из 72 синтезированных фраз. Каждый набор включал десять образцов синтеза одного и того же предложения, девять из них были синтезированы одной из

1 ... 252 253 254 255 256 257 258 259 260 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?