Шрифт:
Интервал:
Закладка:
Впрочем, в наши дни для оценки качества диалоговых моделей активно продолжают использовать и простые попарные (side-by-side) сравнения по принципу: «какие реплики нравятся вам больше?» Например, на платформе Chat Arena [Чат-арена] любой желающий может дать сравнительную оценку ответов разных моделей, на основе чего формируется рейтинг LMSys (Large Model Systems Organization, Организация систем больших моделей)[2281].
Словом, как и во многих других творческих задачах, проблема оценки качества полученных результатов в диалоговых системах стоит довольно остро. Тем не менее значительный прогресс, произошедший в этой области за последние годы, заметен невооружённым глазом. Идеи BlenderBot и Meena получили дальнейшее развитие в следующем поколении диалоговых моделей, таких как LaMDA[2282], Anthropic assistant[2283], WebGPT[2284], BlenderBot 2[2285], BlenderBot 3[2286], Sparrow[2287] и, наконец, ChatGPT[2288], [2289] и его многочисленные аналоги, о которых мы поговорим чуть позже.
6.4 Машина учится говорить
Врач: ...Юра, смотри на свои руки, смотри на свои пальцы, которые напрягаются всё больше и больше. Сейчас я скажу «три», и руки станут неподвижными. Внимание: один, два, три, и руки неподвижны. Ты не можешь двигать руками. Ты пытаешься шевелить руками, но руки твои неподвижны. Тебе трудно делать тонкие дифференцированные движения. Твои руки абсолютно неподвижны. А теперь я сниму это состояние, и ты будешь говорить. Только громко и чётко, свободно и легко, не боясь своего голоса и своей речи. Если ты будешь говорить сейчас, ты будешь на всю жизнь говорить. Громко и чётко! Внимание. На меня смотри. При слове «три» я снимаю напряжение с твоих рук и с твоей речи. Раз, два, три — громко и чётко — я могу говорить! Давай!
Юра: Я-мо-гу-го-во-рить!
Андрей Тарковский. Зеркало (киносценарий)
6.4.1 Первые попытки синтеза речи
Мечты о говорящих машинах стары как мир. В древнекитайском трактате «Ле-цзы» (列子, буквально — «[Трактат] учителя Ле»), составленном предположительно в IV в., можно найти упоминание человекообразного автоматона, созданного древним мастером по имени Ян Ши в годы правления императора Му-вана (IX в. до н. э.). Среди прочих талантов этого устройства была способность петь (не фальшивя). Другой говорящий человекоподобный механизм, в соответствии со средневековой легендой, был создан Альбертом Великим, знаменитым философом, теологом и учёным, наставником Фомы Аквинского. Для изготовления устройства, получившего название «андроид» (т. е. «подобный человеку»), Альберт Великий обратился за помощью к «ангелам преисподней»[2290]. Поминая историю с говорящей головой Сильвестра II, это был уже не первый случай, когда подрядчики из ада помогали святым отцам с устройствами для синтеза речи. Если же не принимать в расчёт эти и другие легендарные приспособления древних, то первенство в создании говорящих устройств принадлежит механикам конца XVIII в., одним из которых был уже знакомый нам изобретатель «шахматного автомата» Вольфганг фон Кемпелен. Причём, в отличие от самого знаменитого изобретения фон Кемпелена, его говорящие приспособления не были плодами высокотехнологичного мошенничества. Изобретатель оставил после себя обстоятельный трактат под названием «Механизм человеческой речи вместе с описанием говорящей машины» (Mechanismus der menschlichen Sprache: nebst der Beschreibung seiner sprechenden Maschine)[2291], благодаря которому созданное им устройство неоднократно воспроизводилось. Например, в 2007 г. усилиями немецких учёных Фабиана Бракхане и Доминика Бауэра была создана реплика «говорящей» машины фон Кемпелена[2292].
В результате своих исследований фон Кемпелен пришёл к выводу, что человеческая речь возникает в результате взаимодействия речевого тракта и ротовой полости, кроме того, при произнесении взрывных согласных могут быть задействованы язык и губы. Идея Кемпелена заключалась в механическом моделировании речевого аппарата человека. Созданная фон Кемпеленом машина была способна «произносить» отдельные звуки, слова и даже целые фразы.
Внешне машина фон Кемпелена представляла собой деревянный ящик с двумя отверстиями для рук оператора. К нему была присоединена напорная камера — кожаные мехи, выполнявшие роль лёгких. Аналогом голосовых связок был вибрирующий язычок, а роль речевого тракта выполняла кожаная трубка. Изменяя руками её форму, можно было производить гласные звуки. Согласные же получались при прохождении воздуха через четыре сужающихся прохода, которые нужно было зажимать пальцами.
Фон Кемпелен утверждал, что для того, чтобы научиться управляться с машиной, обычно достаточно двух-трёх недель тренировок. Машина была способна вполне отчётливо «произносить» несколько сотен слов, причём не только коротких, таких как mama [мама] или papa [папа], но и довольно длинных, таких, например, как Mississippi [Миссисипи] или Constantinopel [Константинополь]. При этом голос машины звучал монотонно — длину вибрирующего язычка можно было изменять, но не во время работы[2293].
Машину фон Кемпелена наблюдали в действии многие известные люди. Так, немецкий писатель Гёте писал: «Говорящая машина Кемпелена… хотя и не слишком красноречива, но очень хорошо произносит некоторые детские слова и звуки». Барон Гримм находил голос машины довольно приятным и даже мелодичным[2294].
Рис. 134. Реплика «говорящей» машины фон Кемпелена
Впрочем, фон Кемпелен не был единственным учёным, работавшим на излёте XVIII в. над созданием говорящих машин. Его работа в этом направлении была начата, по всей видимости, в 1769 г., а около 1770 г. австрийский механик Фридрих фон Кнаусс изготовил и показал при венском императорском дворе четыре говорящих автоматона в форме человеческих голов. К сожалению, история не сохранила детального описания этих устройств и их возможностей. По всей видимости, устройства не были особенно удачными, поскольку, в отличие от других знаменитых автоматонов фон Кнаусса (механического флейтиста и механического писца), мы не находим у современников изобретателя восторженных воспоминаний о говорящих головах[2295].
Чуть больше известно о говорящей машине, изготовленной в 1771 г. выдающимся английским естествоиспытателем Эразмом Дарвином, дедом создателя теории эволюции Чарльза Дарвина. Она представляла собой деревянный рот, снабжённый губами из мягкой кожи. Вот как описывал машину сам Дарвин: «В тыльной части машины располагались две „ноздри“, которые при необходимости можно было быстро зажать пальцами. Между двумя гладкими дощечками была натянута шёлковая