Шрифт:
Интервал:
Закладка:
2. Ударения. Если текстовые метки в корпусе, используемом для обучения модели, не содержат в явном виде проставленных ударений, модель научится их ставить на собственное усмотрение. Проблема заключается в том, что в этой части она будет неуправляема. В случае если модель поставит при произнесении ударение в неправильном месте, у вас просто не будет инструмента для исправления этой ошибки. К счастью, эта проблема решается относительно просто — необходимо расставить ударения в тексте и обучить отдельную модель для расстановки ударений в случае их отсутствия.
3. Смысловые ударения. «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?» — эти вопросы не только имеют разные оттенки смысла, они различаются при произнесении вслух. Чтобы решить эту проблему, также необходима дополнительная разметка текстов.
4. Вопросительные и восклицательные интонации. В целом модели неплохо «понимают», как наличие восклицательного или вопросительного знака в конце предложения влияет на интонацию, с которой это предложение произносится. Однако для того, чтобы они выработали такое «понимание», в обучающей выборке должно быть достаточное количество вопросительных и восклицательных предложений. Кроме того, интонация в вопросительном предложении сильно зависит от смыслового ударения.
5. Протяжённость слогов и пение. Добавив к фонемам их длительность и тон, можно получить модель, способную не только разговаривать, но и петь. Поющие модели — одно из весьма популярных направлений исследований в наши дни. К числу таких моделей относятся, например, XiaoiceSing[2407] и Mellotron[2408].
6. Эмоциональная окраска речи. Эта задача также может[2409] быть решена при помощи специализированной разметки. Однако, в отличие от упомянутых выше параметров, здесь разметка осложнена тем, что оценка эмоциональной окраски слов довольно субъективна.
Чтобы избавиться от субъективного характера стилистической разметки, были предложены модели, способные в режиме обучения без учителя выучивать для каждой фразы некоторые стилистические векторы. К их числу относятся такие модели, как Tacotron TP‑GST (Text-Predicted Global Style Tokens, Глобальные стилевые токены, предсказанные на основе текста)[2410] и GMVAE-Tacotron (Gaussian Mixture Variational AutoEncoder, Вариационный автокодировщик на основе гауссовых смесей распределений)[2411]. Используя векторы, выученные моделью для фраз обучающей выборки, в качестве библиотеки стилей, можно добиться неплохой управляемости стилистикой синтеза. При этом отдельная модель может быть использована для того, чтобы построить стилистический вектор фразы на основе семантической информации, то есть, проще говоря, обучить модель, которая будет, исходя из смысла фразы, выбирать для неё правильную интонацию. Ещё один подход — использование моделей, подобных Parrotron. Эта модель управляется не текстовым представлением, вместо этого она получает на вход речь другого человека, чтобы затем произнести ту же самую фразу другим голосом. Меняя интонацию входной речи, можно управлять речью, производимой системой. Подобные модели могут быть очень полезны в ситуациях, когда необходимо компенсировать дефекты речи или нежелательный акцент[2412]. Создатели некоторых моделей пошли ещё дальше. Translatotron получает на вход фразу, сказанную на одном языке, чтобы затем произнести её перевод на другом языке[2413]. Система перевода, не использующая текст в качестве промежуточного представления, обладает целым рядом преимуществ: она может извлечь дополнительную смысловую информацию из интонаций речи и пауз, а также воспроизвести в переводе эмоциональную окраску исходной речи. Не исключено, что в будущем системы перевода будут основаны именно на таком подходе.
Ещё одной немаловажной задачей является уменьшение объёмов данных, необходимых для эффективного выучивания человеческого голоса, а также снижение требований к их качеству. Конечно, современные технологии клонирования[2414] голоса могут скопировать тембр речи человека, основываясь на образцах общей длиной всего в несколько минут. Например, в начале 2023 г. компания Microsoft рассказала публике о новой модели под названием VALL-E. Она способна подражать голосу конкретного человека, основываясь на образце его речи длиной всего три секунды (публике были даже продемонстрированы примеры работы новой модели, хотя ни в виде набора весов, ни в виде онлайн-сервиса модель пока что не опубликована)[2415]. Однако для полноценного копирования голоса со всеми особенностями интонаций, присущих конкретному человеку, обычно необходимо гораздо больше речевого материала. При обучении моделей на записях, выполненных в различных помещениях, при помощи различной аппаратуры, также возникают определённые трудности, для решения которых в настоящее время предпринимаются серьёзные усилия. В снижении требований к количеству и качеству используемых датасетов могут помочь и специализированные системы для фильтрации и нормализации звукозаписей, и методы переноса обучения, и многоголосые модели, и так называемые генеративно-состязательные сети, о которых мы поговорим немного позже.
Активно изучается возможность применения систем распознавания речи для автоматизированной разметки речевых корпусов, предназначенных для последующего обучения TTS-моделей, что позволит снизить затраты на создание новых голосов.
Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.
6.5 Эмоциональные вычисления и социальный ИИ
Кроваво-чёрное ничто пустилось вить систему клеток, связанных внутри, клеток, связанных внутри, клеток в едином стебле и явственно, до жути на фоне тьмы ввысь белым бил фонтан.
Владимир Набоков. Бледный огонь[2416]
6.5.1 Как насчёт эмоций и сознания у машин?
Сюжеты многих фильмов и книг, посвящённых роботам и разного рода «мыслящим» машинам, нередко вращаются вокруг темы эмоций и чувств. «Добрые» роботы учатся у людей любви и самопожертвованию, а «злые» оказываются повержены из-за неспособности любить, жертвовать собой, предугадывать иррациональные поступки людей или вести себя иррационально (хотя не совсем понятно, как можно считать иррациональными поступки, которые приводят в конечном счёте к достижению цели). Робот Вертер из фильма «Гостья из будущего» мучается из-за любви к Полине; Электроник из фильма «Приключения Электроника» плачет, а затем улыбается, из чего профессор Громов делает вывод, что Электроник стал человеком.
Впрочем, роботы в искусстве обычно являются лишь средством для иллюстрации противоречий в человеческом обществе, а роботы в советской литературе и кино нередко служили средством разборок лириков с физиками. «Приключения Электроника» решают проблему в духе лирического технооптимизма, а, скажем, в фильме «Его звали Роберт» ответ ближе к лирическому технопессимизму. Поскольку искусство контролируется главным образом лириками, точка зрения физиков в нём часто либо не представлена, либо представлена в карикатурном виде.
Давайте попробуем взглянуть на отношения машин и эмоций в сугубо технологическом ключе, воздерживаясь по возможности от традиционных ловушек в духе