Шрифт:
Интервал:
Закладка:
Одним из результатов работы основоположников ТСТ было создание системы машинного перевода ЭТАП (Электротехнический автоматический перевод), работа над которой началась в 1972 г. в институте «Информэлектро» при Министерстве электромеханической промышленности СССР. Заведовал группой автоматического перевода в «Информэлектро» Апресян, а главным архитектором системы стал Леонид Цинман. Плодами работы группы стали системы ЭТАП-1 (предназначенная для перевода с французского языка), ЭТАП-2 (для перевода с английского), а также многоцелевой лингвистический процессор ЭТАП-3. Причём ЭТАП-3 предназначался для решения широкого спектра задач обработки естественного языка, среди которых был и машинный перевод. С 1985 г. команда, занимавшаяся созданием системы ЭТАП, продолжила свою работу в Институте проблем передачи информации (ИППИ РАН), где на её основе была создана Лаборатория компьютерной лингвистики[2073], [2074].
Важно отметить, что при обработке естественного языка в рамках классической парадигмы ИИ (вне зависимости от особенностей применяемого подхода — ТСТ, порождающей грамматики и т. д.), помимо описания языковых структур, необходимо выполнять также ряд операций на уровне отдельных слов. Для того чтобы программа могла выстроить структуру текста, необходимо выполнить его лексическую предобработку (препроцессинг). Создание алгоритмов для эффективного препроцессинга — отдельный, весьма внушительный пласт работы в области компьютерной лингвистики. Определение формы слова, лемматизация (приведение слова к его начальной форме, например «кошкам» → «кошка»), словообразование — всё это требует наличия адекватных морфологических моделей. В СССР над такими моделями работали многие выдающиеся лингвисты, в числе которых можно отметить Андрея Зализняка.
В 1974 г. открылся Всесоюзный центр переводов научно-технической литературы и документации ГКНТ и АН СССР (ВЦП), сотрудники которого начали разработку сразу трёх систем, предназначенных для выполнения машинного перевода в промышленных масштабах. Система для англо-русского перевода получила название АМПАР, для немецко-русского — НЕРПА и для французско-русского — ФРАП[2075].
В 1970-е гг. RBMT-системы (напомним, что это системы перевода на основе правил) активно развивались и на Западе, как в рамках коммерческих проектов, таких как SYSTRAN, так и в академической среде. Репутация систем машинного перевода в глазах американских государственных чиновников, пошатнувшаяся после отчёта ALPAC, была в определённой мере восстановлена благодаря успехам системы Logos MT, использовавшейся для перевода военной документации на вьетнамский язык во время войны во Вьетнаме. Что же до академии, то центры разработки систем машинного перевода возникали порой в довольно неожиданных местах. Например, в 1970 г. во Французском текстильном институте (Institut Textile de France) была создана система TITUS, использовавшаяся для перевода аннотаций к научным статьям. Система поддерживала целых четыре языка — французский, английский, немецкий и испанский — и могла выполнять перевод с и на каждый из этих языков. В 1972 г. в Китайском университете Гонконга (Chinese University of Hong Kong) была создана система CULT (Chinese University Language Translator, Переводчик Китайского университета), предназначенная для перевода математических текстов с китайского языка на английский[2076], [2077]. В 1971 г. Университет Бригама Янга (Brigham Young University, BYU) — частный университет США, основанный Церковью Иисуса Христа Святых последних дней, — начал проект по переводу текстов мормонов на другие языки с помощью машинного перевода[2078], [2079]. На фоне таких исследовательских организаций советский институт «Информэлектро» в качестве одного из мировых центров развития технологий машинного перевода вовсе не казался какой-то экзотикой.
Несмотря на отдельные успехи RBMT-систем, почти одновременно с выходом их на мировую арену начинается активный поиск альтернативных подходов. Идеи Уивера об использовании в переводе статистических методов вновь приобретают актуальность, особенно в свете растущей производительности вычислительных машин. В Советском Союзе это направление получило развитие благодаря усилиям Раймунда Пиотровского. В 1957 г. по его инициативе была создана исследовательская группа «Статистика речи», к которой со временем присоединился ряд исследователей из различных вузов со всех уголков Советского Союза[2080]. В работе группы участвовали лингвисты, математики и программисты[2081]. Пиотровский рассматривал естественный язык как нечёткую систему, которая охватывает размытые множества, состоящие из нечётких лингвистических объектов[2082].
В 1971 г. при Ленинградском государственном педагогическом институте имени А. И. Герцена (ЛГПИ) под руководством Пиотровского была создана Научно-исследовательская лаборатория инженерной лингвистики, сотрудники которой активно занимались разработкой технологий для автоматической обработки текста. В 1991 г. бывшие сотрудники этой лаборатории под руководством Светланы Соколовой основали компанию PROMT[2083]. Название PROMT является сокращением от PROject of Machine Translation (Проект машинного перевода). В октябре 1998 г. компания запустила первый российский сервис машинного перевода — translate.ru.
Первые версии PROMT использовали RBMT-подход, а в 2009 г. компания представила гибридную технологию перевода, использующую элементы статистического машинного перевода.
В 2006 г. компания Google запустила бесплатный сервис Google Translate, основанный на технологии статистического машинного перевода. Идея Google Translate основывалась на поиске определённых структур в корпусе текстов, чтобы затем на базе анализа найденных структур принять решение о том, какие именно варианты перевода слов следует выбрать и как расположить их в структуре целевого языка. Изначально Google Translate практически во всех случаях использовал английский в качестве языка-посредника, то есть при переводе в любой языковой паре, не включающей в себя английский язык, текст сначала переводился с языка-источника на английский, а затем полученный англоязычный текст переводился на целевой язык перевода. Двойной перевод в совокупности с низкой грамматической точностью ранних статистических алгоритмов приводил к сравнительно невысокому качеству перевода, что стало источником множества шуток и забавных ошибок, превратившихся в мемы, однако сам сервис приобрёл большую популярность во всём мире.
Парадоксальным образом в эпоху больших данных ранние системы статистического перевода страдали именно от нехватки данных. Хотя за 2000–2010 гг. уже было накоплено огромное количество оцифрованных текстов, двуязычные тексты, основанные на точных и хорошо синхронизированных с оригиналами переводах, оставались большой редкостью. Создатели Google Translate были вынуждены использовать в качестве базы для статистического перевода документы и стенограммы Организации Объединённых Наций и Европейского парламента, однако этот корпус не столь уж велик и вдобавок весьма ограничен с точки зрения стиля и набора тем.
Последующее появление обширных синхронных корпусов дву- и многоязычных текстов сильно помогло обучению новых, нейросетевых моделей. Например, в 2021–2022 гг. компания Meta (бывшая Facebook), опубликовала корпуса FLORES (Facebook Low Resource, Малоресурсные [языки] от Facebook) и NLLB (No Language Left Behind, Ни один язык не будет брошен), содержащие свыше 450 Гб синхронных текстов, охватывающих более 200 языков. Обученная на этих данных нейросетевая модель, получившая название NLLB-200[2084], была выложена исследователями в открытый доступ и по сей день является одним из лучших открытых решений для задач машинного перевода (придя на смену своей предшественнице — созданной в 2020