Шрифт:
Интервал:
Закладка:
Параллельно разработкой алгоритмов для машинного перевода занялась команда Отделения прикладной математики Математического института АН СССР (МИАН) под руководством Ляпунова. Её основными участниками были аспирантка Ольга Кулагина и студент филологического факультета МГУ Игорь Мельчук, в будущем известный лингвист.
В 1956 г. усилиями Владимира Успенского, Вячеслава Ива́нова и Петра Кузнецова на филологическом факультете МГУ открылся семинар по проблемам математической лингвистики. Позже на его базе по инициативе Виктора Розенцвейга, заведующего кафедрой перевода Московского государственного педагогического института иностранных языков (МГПИИЯ), было создано Объединение по машинному переводу — неформальный центр общения математиков и лингвистов. В том же году на ХХ съезде КПСС автоматический перевод был объявлен одним из приоритетных направлений научных исследований в связи с «общей программой технического прогресса».
С 1957 г. под редакцией Розенцвейга начал выходить «Бюллетень Объединения по проблемам машинного перевода», получивший позже название «Машинный перевод и прикладная лингвистика».
В мае 1958 г. в Москве прошла организованная Розенцвейгом первая советская конференция по машинному переводу. В ней приняли участие 340 человек из 79 организаций. По её итогам Министерство высшего образования СССР издало приказ «О развитии научных исследований в области машинного перевода», придавший дополнительный импульс развитию машинного перевода в СССР.
В 1959 г. в СССР велась работа уже над более чем двумя десятками алгоритмов машинного перевода, причём для нескольких языковых пар решением задачи перевода было занято сразу несколько коллективов разработчиков. Специалисты ИТМиВТ работали над англо-русским, японско-русским, китайско-русским и немецко-русским переводом. Сотрудники Отделения прикладной математики Математического института АН СССР — над французско-русским и англо-русским. В Институте языкознания Академии наук СССР — над венгерско-русским.
Также работа велась в Ленинградском государственном университете (индонезийско-русский, арабско-русский, хинди-русский, японско-русский, бирманско-русский, норвежско-русский, англо-русский, немецко-русский, вьетнамско-русский, русско-английский, испанско-русский, китайско-русский и турецко-русский перевод), в Горьковском государственном университете (французско-русский и англо-русский перевод), в Вычислительном центре Академии наук Армянской ССР (армянско-русский и русско-армянский перевод) и в Институте автоматики и телемеханики Академии наук Грузинской ССР (грузинско-русский и русско-грузинский перевод). Конечно, у всех этих решений была весьма разная степень готовности: где-то имелись уже полностью работоспособные программы, а где-то лишь наброски алгоритмов. Но в целом надо признать, что машинный перевод стал темой, которой в СССР уделялось существенное внимание. В этом отношении ситуация в Советском Союзе вполне соответствовала мировым трендам. В США разработкой систем машинного перевода были также параллельно заняты несколько исследовательских групп.
Системы машинного перевода, созданные в 1950-е — начале 1960-х гг., обычно рассматривали текст как последовательность предложений, каждое из которых обрабатывалось по отдельности. Они использовали большие двуязычные словари и запрограммированные правила для определения порядка слов в переведённом тексте. Этот подход в наши дни часто называют прямым машинным переводом [direct machine translation]. Несмотря на сравнительную простоту используемых алгоритмов, некоторые системы, созданные в это время, были внедрены в промышленную эксплуатацию и активно применялись на практике. Например, Военно-воздушные силы США вплоть до начала 1970‑х гг. использовали систему, созданную группой исследователей Вашингтонского университета под руководством Эрвина Райфлера. Райфлер и его коллеги работали над двумя языковыми парами: «английский — немецкий» и «английский — русский». С 1958 г. развитием этой системы занималась команда разработчиков из компании IBM под руководством Гилберта Кинга.
Комиссия по атомной энергии и Евратом (Европейское сообщество по атомной энергии) в Италии, а также Национальная лаборатория Атомной энергетической комиссии США Oak Ridge использовали системы, ядро которых было разработано в Джорджтаунском университете. Со времён Джорджтаунского эксперимента этот университет стал основным центром исследований машинного перевода в США. Из-за методологических разногласий, возникших среди исследователей, в университете были созданы сразу четыре группы, каждой из которых было предложено представить свои методы для тестирования на открытом конкурсе, в ходе которого необходимо было переводить с русского языка тексты из области химии. Победителем стал прототип, разработанный группой под руководством Майкла Заречнака. Он лёг в основу системы, получившей название GAT (Georgetown Automatic Translation, Джорджтаунский автоматический перевод). Метод, опубликованный командой Заречнака в 1959 г.[2040], получил название «общий анализ» [general analysis]. В его рамках текст анализировался на трёх уровнях: морфологическом (включая определение идиом), синтагматическом (согласование существительных и прилагательных, управление глаголами и т. д.) и синтаксическом (выделение подлежащих, сказуемых и т. д.).
Ещё одним западным центром исследований в области машинного перевода в 1950-е гг. стала корпорация RAND, исследователи которой вели эксперименты по применению в машинном переводе методов статистического анализа текстов[2041], [2042].
В целом, несмотря на скудность аппаратных средств, машинный перевод стал в конце 1950-х — начале 1960-х гг. популярным направлением для теоретических и прикладных исследований, и с его развитием было связано множество оптимистических ожиданий.
6.3.2.4 Отчёт ALPAC, принёсший разочарование
Впрочем, как и в случае многих других начинаний в области ИИ в 1950-е гг., на смену безудержному оптимизму быстро пришло разочарование. Развитие систем машинного перевода быстро столкнулось со сложностью предметной области. Отсутствие видимого прогресса привело к стремительному превращению некоторых оптимистов в пессимистов. Например, Бар-Хиллел заявил, что качественный машинный перевод невозможен в принципе: в некоторых контекстах машина никогда не сможет распознать многозначные слова. Впрочем, природа этого кризиса была, по всей видимости, не столь уж проста. Он разразился на фоне быстрого развития вычислительной техники и расширения сфер её применения. В такие периоды экстенсивного развития технологии обычно наблюдается дефицит специалистов на фоне множества направлений эффективного применения их сил и возникает вопрос: зачем создавать систему, способную ценой гигантских трудозатрат квалифицированных разработчиков немного снизить затраты труда в области перевода, если ценой куда более скромных трудозатрат тех же специалистов можно, например, многократно повысить производительность труда бухгалтеров? Получается, что старый добрый принцип «в первую очередь сорви наиболее низко висящий фрукт» в определённый момент работает против инновационных областей технологии.
В 1964 г. в США для оценки прогресса в области машинного перевода был создан Консультативный комитет по автоматической обработке языка (Automatic Language Processing Advisory Committee, ALPAC), который спустя два года опубликовал отчёт. Общая тональность отчёта была умеренно-пессимистической. И хотя он и не содержал разгромных формулировок и громких выводов, результатом его публикации стало существенное сокращение финансирования этой тематики со стороны американских и европейских властей. Некоторые источники утверждают, что отчёт ALPAC содержал призыв полностью отказаться от государственного финансирования проектов в области машинного перевода, но, как мы увидим далее, это не соответствует действительности.
Как же получилось, что оценка перспектив машинного перевода оказалась столь пессимистичной? Разберём этот вопрос подробнее.
Общие сведения о комитете изложены в предисловии отчёта: «Министерство обороны, Национальный научный фонд и