litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 249 250 251 252 253 254 255 256 257 ... 482
Перейти на страницу:
делать свой «вокодер». И перед самой войной у нас уже работал его опытный образец. Правда, пока он ещё «говорил» плохо, «дрожащим голосом»[2349].

Развитие аналоговых систем связи привело к дальнейшему совершенствованию применяемых в них вокодеров. Преобразование речи в сигнал, устойчивый к различным типам помех и дешифровке, с последующим восстановлением по нему исходной речи — задача, имеющая большое прикладное значение, и в XX в. исследованиями в этой области занимались многие талантливые учёные, о работе которых можно было бы написать не одну сотню страниц. Но это имеет лишь косвенное отношение к истории обретения машинами собственного голоса. И новая глава в этой истории начинается с первыми опытами по синтезу речи при помощи электронных вычислительных машин.

6.4.3 Синтез речи на ЭВМ и его применение

Электронные вычислительные машины научились воспроизводить звуки ещё на заре своего существования (об этом коротко упоминалось в подглаве, посвящённой шашечной программе Кристофера Стрейчи), и первые эксперименты по компьютерному синтезу речи были начаты уже в 1950-е гг.

Первая программа синтеза на основе правил, способная синтезировать речь из фонематического представления, была, что вполне ожидаемо, создана в недрах Bell Laboratories. Её написали Джон Келли, Кэрол Лохбаум и Лу Герстман в первой половине 1960‑х гг. для компьютера IBM 704. Исследователи использовали синтезатор с тремя формантами. Хотя длительности и форма кривой F0 были скопированы из естественной речи, а также в некоторых случаях использовалась ручная коррекция вывода правил, результаты были весьма впечатляющими. Келли, Герстман и Лохбаум не только порадовали публику несколькими простыми фразами, они заставили IBM 704 зачитать монолог Гамлета («Быть или не быть?») и даже научили свою программу исполнять фрагмент песни Daisy Bell под музыкальный аккомпанемент, который генерировался другой программой.

Свидетелем этой демонстрации стал Артур Кларк, приглашённый в Bell Laboratories своим другом, инженером и фантастом Джоном Пирсом. Кларк был настолько впечатлён увиденным, что использовал машинное исполнение Daisy Bell в одной из наиболее ярких сцен своего романа и сценария фильма «2001 год: Космическая одиссея», увидевшего свет в 1968 г. Именно эту песню поёт компьютер HAL 9000 перед тем, как астронавт Дейв Боуман окончательно отключит его[2350], [2351], [2352], [2353].

Первая полноценная компьютерная система для преобразования текста в речь (text-to-speech, TTS) была продемонстрирована в 1968 г. на VI Международном конгрессе по акустике в Токио[2354], [2355], [2356], [2357]. Её создательницей была Норико Умеда из Электротехнической лаборатории (Electrotechnical Laboratory, ETL) в Японии. Созданная Умедой и её коллегами система предназначалась для синтеза английской речи и была основана на артикуляционной модели (т. е. на моделировании работы речевого тракта и артикуляционного процесса). Система включала в себя модуль синтаксического анализа текста, основанный на довольно сложных эвристиках. Спустя год Норико Умеда стала сотрудницей Bell Laboratories, где объединила усилия с инженером Сесилом Кокером и лингвистом Кэтрин Браумен для работы над первой TTS-системой Bell Laboratories. Работа системы была продемонстрирована на Международной конференции по речевым коммуникациям и обработке речи (International Conference of Speech Communication and Processing, ICSCP) в 1972 г.[2358], [2359], [2360]

В 1970-е гг. по мере удешевления и миниатюризации вычислительной техники задача компьютерного синтеза речи постепенно переходит из разряда теоретических в прикладную область. Например, появляются первые проекты систем, предназначенных для помощи незрячим и слабовидящим людям. Самый ранний из них был предпринят в начале 1970-х гг. лингвистом Игнациусом Мэттингли из Лабораторий Хаскинса. Помимо набора правил для транскрипции слов в последовательность фонем, Мэттингли использовал фонетический словарь, состоявший из 140 000 слов. Кроме того, Мэттингли стремился оптимизировать темп речи своей системы, чтобы добиться наилучшего восприятия слушателями[2361], [2362], [2363]. К сожалению, этот новаторский проект был остановлен из-за нехватки средств, и устройство, частью которого должна была стать система Мэттингли, так и не пошло в серию. В итоге первое коммерческое устройство для чтения, предназначенное для незрячих пользователей, разработала в 1975 г. компания уже знакомого нам Рэя Курцвейла — Kurzweil Computer Products (позже компания была приобретена корпорацией Xerox). Машина была оснащена оптическим сканером (для распознания напечатанного) и поступила в продажу в конце 1970‑х гг.[2364]

Подобные работы шли и в СССР. Первый русскоязычный синтезатор речи «Фонемофон‑1» был создан в начале 1970-х гг. в Минске под руководством Бориса Лобанова. «Фонемофон-1» был способен не только синтезировать русскую речь, но и читать введённый текст на нескольких иностранных языках, а также синтезировать пение. В основу работы синтезатора был положен формантный метод[2365].

Рис. 138. Синтезатор речи «Фонемофон-1»

Первым серийным синтезатором речи в СССР стал цифровой «Фонемофон-4», выпуск которого был начат в середине 1980-х гг. В «Фонемофоне-5» на смену формантному методу синтеза пришёл новый, микроволновой метод синтеза речевых сигналов (при его использовании речь конструируется из элементов, являющихся отдельными периодами звуковых волн, составляющих звуковой сигнал)[2366]. Этот синтезатор до сих пор нередко используется незрячими пользователями ЭВМ, поскольку он стал частью русскоязычной версии системы JAWS (Job access with speech, Доступ к работе при помощи речи) — одного из наиболее популярных в мире средств чтения с экрана. JAWS позволяет незрячему или слабовидящему пользователю слышать текст, отображаемый на экране компьютера, либо воспринимать его при помощи дисплея Брайля.

6.4.4 Развитие конкатенативного синтеза речи

Параллельно с различными разновидностями параметрического синтеза речи исследователи активно изучали возможности конкатенативного подхода.

Конечно, можно попробовать собирать речь из отдельных фонем. Именно так поступили, например, авторы популярной системы синтеза речи «Говорун» для семейства советских ЭВМ серии БК. Авторам программы, Юрию Зальцману и Виктору Михайлову, удалось в 1989 г. по заданию Казахского общества слепых создать синтезатор речи размером всего около 8 килобайт[2367]. Однако качество такой речи, конечно, оставляло желать лучшего.

С лингвистической точки зрения привлекательной строительной единицей речи являются слоги, однако в английском языке их насчитывается более 10 000, и компьютеры 1950-х и даже 1960-х гг. не обладали достаточным объёмом оперативной памяти для хранения такого количества звуковых фрагментов и быстрой сборки из них речевых последовательностей. Прямолинейное использование в качестве строительных блоков отдельных фонем (в английском языке их около 40) потерпело неудачу из-за хорошо известных коартикуляционных эффектов, возникающих между соседними фонемами (мы уже обсуждали проблему коартикуляции в подглаве, посвящённой распознаванию речи).

Коартикуляционные воздействия ослабевают в

1 ... 249 250 251 252 253 254 255 256 257 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?