litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 265 266 267 268 269 270 271 272 273 ... 482
Перейти на страницу:
появилось. Вот некоторые наиболее популярные на сегодняшний день у разработчиков публичные датасеты эмоциональной речи.

1. RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song, Аудиовизуальная база данных эмоциональной речи и пения [Университета] Райерсона)[2463].

База данных состоит из записей 24 профессиональных актёров (12 мужчин и 12 женщин), озвучивающих две фразы (Kids are talking by the door [Дети разговаривают у двери], Dogs are sitting by the door [Собаки сидят у двери]) на английском языке с североамериканским акцентом в двух вариантах: речь и пение, по два раза каждый вариант. В качестве эмоционального словаря разметки использована «большая шестёрка» эмоций (раздражение, отвращение, страх, счастье, печаль и удивление), к которой было добавлено спокойствие [calm] (в подмножестве, основанном на пении, эмоции удивления и отвращения отсутствуют). Каждая фраза представлена в датасете с двумя уровнями эмоциональной интенсивности для каждой из эмоций и однократно с нейтральной окраской. Каждая запись присутствует в датасете в трёх модальностях (только видео, только звук, звук вместе с видео). Для каждой записи из итогового набора объёмом 7356 записей была десять раз произведена оценка эмоциональной валидности, интенсивности и натуральности, для чего было привлечено 247 оценщиков. Благодаря столь тщательной проверке RAVDESS считается одним из наиболее качественных датасетов эмоциональной речи.

Что же с ним не так?

Во-первых, лексически он крайне беден, в нём представлено всего восемь разных слов. Конечно, тот факт, что разные актёры читают и поют одни и те же фразы с разной эмоциональной окраской, делает текст лексически сбалансированным, но достаточно ли в нём разнообразия, чтобы модель, обученная на нём, хорошо справлялась с совершенно другими словами и фразами? Авторы датасета сообщают о 7356 записях, однако получается, что на одного актёра приходится 7356 : 24 = 306,5 записи. Сразу вспоминается детский стишок, в котором «и вышло у меня в ответе: два землекопа и две трети». Каждый актёр сделал 60 записей речи (2 фразы × 7 эмоций × 2 уровня интенсивности × 2 повторения + 2 нейтрально произнесённые фразы × 2 повторения) и 44 записи пения (2 фразы × 5 эмоций × 2 уровня интенсивности × 2 повторения + 2 нейтрально спетые фразы × 2 повторения). Таким образом, с учётом трёх модальностей общее число записей должно было бы быть 24 × (60 + 44) × 3 = = 7488. Но авторы датасета потеряли записи пения одной из женщин (132 файла) по техническим причинам, ввиду чего идеальный баланс в наборе данных был утрачен.

Во-вторых, вопрос вызывает тот факт, что авторы датасета сделали «спокойствие» отдельной эмоциональной меткой. Я не очень понимаю, чем две степени спокойствия отличаются от нейтральной окраски. Авторы объясняют это тем, что нейтральная окраска нередко воспринимается оценщиками как имеющая небольшую отрицательную валентность (видимо, имеется в виду некая затаённая грусть). «Спокойствие» должно быть своеобразной компенсацией этого эффекта, поскольку по замыслу должно обладать положительной валентностью. Но я боюсь, что подобного рода слабые эффекты трудно моделировать, тем более при столь скромных объёмах данных.

2. SAVEE (Surrey Audio-Visual Expressed Emotion, Аудиовизуально выраженные эмоции [Университета] Суррея)[2464], [2465], [2466], [2467].

Состоит из записей четырёх актёров мужского пола, говорящих на родном для них британском английском языке. В качестве эмоционального словаря снова выбрана «большая шестёрка», при этом фразы с нейтральной эмоциональной окраской записывались дважды. Сами фразы были выбраны из корпуса TIMIT, для каждой эмоции было взято 15 фраз, при этом из них три были общими для всех эмоций, десять — разными для разных эмоций, но без эмоциональной специфики, а ещё две фразы были основаны на текстах, имеющих специфическую эмоциональной окраску для данной эмоции (например, Who authorized the unlimited expense account? [Кто одобрил счёт с неограниченным расходным лимитом?] для эмоции «гнев»). 15 фраз на каждую эмоцию и 30 нейтрально окрашенных фраз составляют в сумме 15 × 6 + 15 × 2 = 120 записей на актёра, что даёт нам всего 120 × 4 = 480 записей.

Тексты были также фонетически сбалансированы (по всей видимости, имели сходный друг с другом набор фонем, чтобы модель в процессе обучения вместо поиска эмоциональных особенностей произношения фразы не искала якобы специфичные для той или иной эмоции фонемы).

Хотя лексически SAVEE куда более разнообразен, чем RAVDESS, но, к сожалению, его объём крайне мал, что создаёт очевидные проблемы для разработчиков.

3. SEMAINE (Sustained Emotionally coloured Machine-human Interaction using Nonverbal Expression, Устойчивое эмоционально окрашенное взаимодействие машина — человек с использованием невербальной экспрессии), полное название: SEMAINE sensitive agent project database (база данных проекта чувствительного агента [консорциума] SEMAINE)[2468], [2469].

Эта аудиовизуальная база данных стала одним из продуктов исследовательской программы по созданию «Чувствующего искусственного слушателя» (Sensitive Artificial Listener, SAL) — аудиовизуальной диалоговой системы, способной вовлечь человека в длительный эмоционально окрашенный разговор. По сути, разговор с агентом SAL для человека напоминает обычный разговор при помощи системы видеосвязи с той лишь разницей, что собеседником является виртуальный персонаж, внешний облик которого (лицо, мимика, движения губ во время речи) в реальном времени генерируется при помощи библиотеки для трёхмерной визуализации.

Данные, содержащиеся в базе SEMAINE, были получены в результате взаимодействия между пользователями и человеком-оператором, имитирующим агента SAL, в двух различных конфигурациях: Solid SAL (в этом варианте оператор сам общается с пользователем, при этом демонстрируя при общении соответствующее невербальное поведение) и полуавтоматический SAL (здесь оператор управляет аватаром[2470], с которым общается пользователь; таким образом, у пользователя создаётся впечатление, что он общается с машиной). Процесс общения фиксировался при помощи набора из синхронно работающего записывающего оборудования: пяти камер высокого разрешения с высокой частотой кадров и четырёх микрофонов. База включает в себя записи 959 диалогов, в которых участвовали 150 человек. Длина каждой записи около 5 минут. Все диалоги были расшифрованы и размечены (каждую запись размечали параллельно 6–8 разметчиков) при помощи эмоциональных меток (использовалась система с пятью шкалами и 27 эмоциональными классами). Другие сценарии помечены на том же шаблоне, но менее полно. Также для части записей присутствует разметка при помощи системы кодирования лицевых движений (Facial Action Coding System, FACS). Эта удивительная система была разработана Полом Экманом и Уоллесом Фризеном ещё в далёком 1978 году[2471]. При помощи FACS можно описать практически любое анатомически возможное выражение лица путём разделения его на отдельные двигательные элементы, представленные на различных временных отрезках. Используя FACS, можно с лёгкостью отличить, например, «дежурную улыбку Pan-Am» (называется так в честь авиакомпании Pan American World Airways, стюардессы которой должны были улыбаться каждому пассажиру)[2472] и искреннюю и спонтанную «улыбку Дюшена». Первая характеризуется

1 ... 265 266 267 268 269 270 271 272 273 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?