litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 248 249 250 251 252 253 254 255 256 ... 482
Перейти на страницу:
class="sup">1 (напомним, что форманта — это концентрация акустической энергии вокруг определённой частоты в речевой волне, а нумерация их идёт снизу вверх, начиная от самой низкой частоты). Идея синтеза речи, основанного на наложении друг на друга нескольких колебательных процессов, оказалась удобной для реализации в электрических устройствах. Первый электрический синтезатор формант, по всей видимости, был построен молодым физиком из Принстона Джоном Стюартом в 1922 г. В его устройстве два колебательных контура возбуждались зуммером, что позволяло синтезировать приближения гласных звуков, подстраивая резонансные частоты к двум самым нижним формантам для каждого гласного. Сам Стюарт, впрочем, никогда не называл своё устройство синтезатором речи или синтезатором формант[2338]. Статья с описанием его изобретения, опубликованная в Nature, называется «Электрический аналог голосовых органов» (An Electrical Analogue of Vocal Organs)[2339]. Устройство Стюарта не могло синтезировать полноценную речь, поэтому сегодня его называют «статическим синтезатором формант»[2340].

В конце 1930-х гг. компания Bell Telephone Laboratories, наследница лаборатории, созданной Александром Беллом, разработала VODER (Voice Operation DEmonstratoR, Демонстратор действия голоса) — систему синтеза речи, состоявшую из генератора, производившего колебания и симулировавшего голосовую составляющую; генератора шума, необходимого для имитации звука выдыхаемого воздуха; набора электронных фильтров (устройств для выделения желательных компонентов спектра электрического сигнала и/или подавления нежелательных), воспроизводивших резонансные характеристики речевого тракта, и громкоговорителя, преобразующего электрический сигнал в результирующие звуковые колебания. Таким образом, VODER стал первой системой для электронного синтеза человеческой речи, основанной на разбиении её на различные акустические компоненты. Работа над системой VODER стала для его создателя, Хомера Дадли, ответвлением проекта по созданию «вокодера» [vocoder, от voice — голос и encoder — кодировщик] — устройства, предназначенного для разложения речи на компоненты, которые могут быть представлены в компактном виде, например, для записи или передачи по каналам связи, а также последующего восстановления исходной речи из её компактного представления. Успехи в работе над вокодером привели к появлению идеи создания управляемой человеком версии синтезатора речи. Она и нашла воплощение в VODER’е. Его речь была не слишком качественной, но вполне разборчивой.

VODER стал прообразом систем так называемого параметрического синтеза речи (Parametric Speech Synthesis), то есть систем, в которых синтез осуществляется за счёт подбора параметров колебательного процесса, в результате чего образуются необходимые звуки. Альтернативой параметрического является «конкатенативный синтез» [concatenation synthesis] — подход, основанный на построении речи из заготовленного набора фонетических «кирпичиков» — фонем или их сочетаний. При компьютерном синтезе речи с вычислительной точки зрения второй подход существенно проще, однако его слабым местом является проблема соединения фонетических элементов — в местах их стыков возникают неестественные переходы, которые отрицательно влияют на качество синтетической речи. Кроме того, сами фонетические элементы в реальной человеческой речи не являются полностью идентичными, их длительность, высота различных гармоник и громкость могут немного различаться в зависимости от различных обстоятельств — фонетического контекста, силы экспирации (т. е. силы, с которой выдыхается воздух; та же, в свою очередь, может зависеть от того, как давно был осуществлён вдох), интонации и так далее. Впрочем, если задача заключается в том, чтобы сделать синтетическую речь просто разборчивой, а не максимально близкой к речи человека, то конкатенативный синтез прекрасно справляется с задачей, особенно в случае языков, не являющихся тоновыми[2341].

В 1940-е и 1950-е гг. было создано немало интересных экспериментальных устройств для синтеза речи. Например, в «Лаборатории Хаскинса» (Haskins Laboratories), независимой некоммерческой исследовательской корпорации, учреждённой в 1935 г. учёным и филантропом Кэрилом Паркером Хаскинсом и физиком Франклином Купером, был разработан синтезатор под названием «Проигрыватель образов» (Pattern Playback), который умел преобразовывать спектрограммы, начерченные на протягиваемой устройством прозрачной плёнке, в звук, что позволяло получить вполне разборчивое воспроизведение звуков человеческой речи[2342].

В те же годы продолжались активные работы над вокодерами, однако детали этих исследований до сих пор недостаточно хорошо изучены, поскольку многие из них были скрыты завесой секретности. Вокодеры активно использовались в системах правительственной связи, поэтому сведения о многих работах в этой области собирались нередко из весьма сомнительных источников. Например, основным источником информации для зарубежных исследователей истории советских вокодеров стал роман Солженицына «В круге первом», в котором приводятся некоторые подробности о работе автора в «шарашке»[2343], занимавшейся проблемами анализа и кодирования речи[2344], [2345], [2346]. Однако в романе содержится множество исторических несоответствий, что ставит под сомнение его ценность в качестве исторического источника.

В действительности история советских вокодеров началась задолго до описываемых Солженицыным событий. Их создание связано с именем выдающегося советского учёного Владимира Александровича Котельникова. В 1939 г. Котельникову, к тому моменту уже имевшему опыт создания аппаратуры для шифрования данных в телеграфном канале, была поручена задача создания шифратора для речевых сигналов для правительственной высокочастотной связи. К тому моменту в Советском Союзе уже использовались системы шифрования речевого сигнала, однако они были основаны на сравнительно примитивных техниках, таких как синхронное изменение (по определённому закону) несущей частоты на приёмнике и передатчике или же применение инверторов (устройств, производящих замену частот в сигнале). Такие устройства могли защитить от примитивного подслушивания, однако не обладали устойчивостью к дешифровке. Для достижения такой устойчивости было необходимо создать принципиально новые устройства. Для этой цели и была создана лаборатория под руководством Котельникова[2347], сменившая в процессе своего существования множество названий[2348]. Вместе с Котельниковым над решением задачи работали радиофизик и инженер Александр Минц, инженеры Константин Егоров и Виктор Виторский и другие специалисты в области аппаратуры связи. Позже к работам подключилась группа специалистов, ранее занимавшаяся решением этой же задачи на ленинградском заводе «Красная Заря».

Именно в процессе работ над устройством для шифрования речи (к слову сказать, оно получило название «Соболь-П») Котельников и создал первый в СССР вокодер, основанный на выделении основного тона речи. Вот что писал по этому поводу сам Котельников:

Для того чтобы было труднее расшифровать передаваемую речь, было важно сделать «отрезки», на которые мы её разбивали, как можно короче. А это проблема потому, что тогда ухудшается качество передаваемой речи. Я стал думать, как бы передавать речь не всю полностью, а как-то сжать её спектр. Начал рассматривать спектр звуков, чтобы понять, какие частоты определяющие…

В это время попалась на глаза ссылка на статью Хомера Дадли, опубликованную в октябре 1940 года, где говорилось, что он сделал преобразователь речи — «вокодер». Бросился смотреть, а оказалось, что там ничего конкретного не написано. Но всё равно это было очень полезно: идея у него та же, значит, мы на правильном пути. В общем, мы начали

1 ... 248 249 250 251 252 253 254 255 256 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?