Шрифт:
Интервал:
Закладка:
В какой степени мы можем верить утверждениям, что машины усваивают “семантическую структуру” языка или что машинный перевод стремительно приближается к человеческому уровню точности? Чтобы ответить на этот вопрос, давайте внимательнее изучим фактические результаты, на которых основаны эти заявления. В частности, давайте выясним, как эти компании изменяют качество машинного и человеческого перевода. Оценка качества перевода – нетривиальная задача. Один и тот же текст может быть верно переведен целым рядом способов (и еще бóльшим количеством способов он может быть переведен неверно). Поскольку задача на перевод определенного текста не предполагает единственного верного ответа, сложно разработать автоматический метод расчета точности системы.
Утверждения о достижении “человеческого уровня” и “сокращении разрыва между машинами и людьми” в машинном переводе основаны на двух методах оценки результатов перевода. Первый метод автоматизирован и предполагает применение компьютерной программы, которая сравнивает машинный перевод с человеческим и выдает оценку. Второй метод предполагает “ручную” оценку перевода двуязычными людьми. В рамках первого метода почти всегда используется программа BLEU (Bilingual Evaluation Understudy – Ассистент двуязычной оценки)[267]. Для оценки качества машинного перевода перевода BLEU, по сути, считает количество совпадений – между словами и фразами разной длины, – сравнивая переведенное машиной предложение с одним или несколькими “образцовыми” (то есть “верным”) переводами того же предложения, выполненными человеком. Хотя оценки BLEU часто совпадают с человеческими суждениями о качестве перевода, она склонна завышать оценку плохих переводов. Несколько специалистов по машинному переводу сказали мне, что BLEU несовершенна и используется лишь потому, что никто пока не предложил автоматизированный метод, который в целом работал бы лучше.
С учетом несовершенства BLEU “золотым стандартом” оценки системы машинного перевода остается “ручная” оценка сделанных системой переводов двуязычными людьми. Те же самые судьи могут также выставлять оценки работам профессиональных переводчиков, чтобы сравнивать их с оценками машинных переводов. Однако и у этого, эталонного, подхода тоже есть свои недостатки: людям, разумеется, нужно платить за работу, и они – в отличие от компьютеров – устают после оценки нескольких десятков предложений. Таким образом, если у вас нет возможности нанять целую армию двуязычных оценщиков, имеющих в своем распоряжении большое количество времени, вам под силу лишь ограниченная оценка переводов.
Специалисты по машинному переводу из Google и Microsoft осуществляли эталонную (хоть и ограниченную) оценку качества переводов, нанимая небольшие группы двуязычных людей[268]. Каждому оценщику давали набор предложений на языке оригинала и набор соответствующих предложений на языке перевода. Переводы создавались как системой нейронного машинного перевода, так и профессиональными переводчиками. В оценке Google использовалось около пятисот предложений из новостей и статей “Википедии” на нескольких языках. Определив среднее арифметическое оценок, проставленных каждым оценщиком, а затем среднее арифметическое оценок, проставленных всеми оценщиками, исследователи Google обнаружили, что средняя оценка их системы нейронного машинного перевода была близка к оценке предложений, переведенных людьми (хоть и оставалась ниже). Такие результаты наблюдались во всех языковых парах, проходивших оценку.
В Microsoft подобный метод средних использовали для оценки перевода новостей с китайского на английский язык. Оценки переводов, выполненных системой нейронного машинного перевода Microsoft, были очень близки к оценкам человеческих переводов (и иногда даже превосходили их). Во всех случаях оценщики ставили переводам, сделанным при помощи системы нейронного машинного перевода, более высокие оценки, чем переводам, выполненным с использованием более ранних методов машинного перевода.
Иными словами, появление глубокого обучения улучшило машинный перевод. Но можем ли мы интерпретировать эти результаты таким образом, чтобы оправдать заявление, что машинный перевод теперь близок к “человеческому уровню”? На мой взгляд, это утверждение необоснованно по нескольким причинам. Прежде всего, вычисление средних оценок может вводить в заблуждение. Представьте ситуацию, в которой большинство переведенных предложений получило оценку “великолепно”, в то время как многим была присвоена оценка “ужасно”. Их средней оценкой станет “довольно хорошо”. Однако вы, вероятно, предпочтете более надежную систему перевода, которая всегда “довольно хороша” и никогда не бывает “ужасна”.
Кроме того, утверждения, что эти переводческие системы близки к “человеческому уровню” или “равноценны человеку”, всецело основаны на оценке переводов отдельных, изолированных предложений, а не более длинных фрагментов текста. В более длинных фрагментах текста предложения могут в значительной степени зависеть друг от друга, но их взаимосвязи можно упустить, если переводить их по отдельности. Я не видела ни одного формального исследования по оценке машинного перевода длинных фрагментов текста, однако, ориентируясь на собственный опыт, могу сказать, что качество перевода, скажем, “Google Переводчика” существенно снижается при переводе целых абзацев, а не отдельных предложений.
Наконец, во всех оценках использовались предложения, взятые из новостей и со страниц “Википедии”, которые обычно написаны таким образом, чтобы избежать двусмысленности и не допустить использования идиом, в то время как идиоматический язык может вызывать у систем машинного перевода серьезные затруднения.
Помните историю о ресторане, которую я рассказала в начале предыдущей главы? Я написала ее не для того, чтобы тестировать переводческие системы, но она хорошо иллюстрирует трудности, которые вызывает у систем машинного перевода разговорный, идиоматический и потенциально неоднозначный язык.
С помощью “Google Переводчика” я перевела историю о ресторане с английского на французский, итальянский и китайский языки. Получившиеся переводы (без оригинала) я отправила двуязычным друзьям, владеющим английским языком и языками перевода, и попросила их перевести перевод Google обратно на английский, чтобы понять, что именно человек, говорящий на языке перевода, может узнать из текста, переведенного на этот язык. Результатами моего эксперимента вы можете насладиться ниже. (Выполненные “Google Переводчиком” переводы, с которыми работали мои друзья, приводятся в примечаниях в конце книги.)
Оригинал:
A man went into a restaurant and ordered a hamburger, cooked rare. When it arrived, it was burned to a crisp. The waitress stopped by the man’s table. “Is the burger okay?” she asked. “Oh, it’s just great”, the man said, pushing back his chair and storming out of the restaurant without paying. The waitress yelled after him, “Hey, what about the bill?” She shrugged her shoulders, muttering under her breath, “Why is he so bent out of shape?”