Те, кто хотя бы мельком знаком с автоматизированным переводом (по английски: machine translation (MT)) в какой-то момент реагировали подобным образом: “Отлично!” — вводим текст в известном и бесплатном переводчике Google Translate, и наблюдаем, как через несколько минут появляется перевод. Но даже Google Translate, как и все системы автоматизированного перевода, допускает ошибки, от незначительных до критических (порой очень забавных).
В Интернете полно примеров с неправильным переводом, выполненным в автоматическом переводчике. Чего не понимают моноязычные англоговорящие, так это того, сколько смешных ошибок допускают в переводе с английского языка. Возьмем к примеру, участника акции гражданского протеста в Нью-Йорке “Захвати Уолл-Стрит”, который видимо хотел перевести фразу “No more corruption” (нет (хватит) коррупции!) на китайский язык через автоматический переводчик. В итоге у него получилось: “There is no corruption” (“коррупции нет”).
Автоматизированный перевод сложен. На протяжении десятилетий он занимал умы многих талантливых ученых, вот почему чаще используется старое название “автоматизированный” и не новое — “компьютерный” перевод. В старых моделях грамматику или текст источника пытались разбить на части, чтобы затем реконструировать на языке перевода. Это было настолько трудно, что сегодня, глядя в прошлое, мы понимаем, что такой подход должен был привести к неразрешимым проблемам. Но теперь, уже на ранней стадии применения “обширных данных” (“big data”) (прежде чем эта фраза стала популярной), системы автоматизированного перевода стали работать преимущественно со статистикой. Если вы вводите в модель перевода на языке-источнике и языке перевода много высококачественных текстов, переведенных человеком, модель “уяснит” такую вероятность: «X» на языке A будет переводиться как «Y» на языке B. (И как часто, и в каком контексте, «X» вероятнее всего будет переводится как «Z».) Чем больше данных, тем лучше работает статистическая модель. Именно поэтому Google (который не имел бы никакого значения без большой базы данных) получил такую известность среди систем автоматизированного перевода.
Автоматизированный перевод хорош для перевода отдельных слов, это что-то вроде онлайн-словаря. АП так же хорош при переводе общих устойчивых фраз, потому что это тот костяк языка, который переводился уже много раз, и поэтому его можно легко передать на другом языке. АП неплох при переводе незамысловатых предложений с достаточно четкой структурой, хотя, как только вы попытаетесь вводить предложения целиком, вы увидите некоторую “топорность” в переводе. А в целых отрывках текстов АП испытывает трудности в частности с текстами, которые учебная модель еще не научилась “распознавать”. На блоге Ханци Сматер (Hanzi Smatter) приводится пример картинки байкера с татуировкой (ссылка: http://hanzismatter.blogspot.de/2011/06/from-gunnar-to-tiangotlostgmail.html), которая была переведена через автоматический переводчик. На его торсе красовались огромные китайские иероглифы, которые должны были означать “Ride Hard Die Free” (езжай бесстрашно, умри свободным). Единственной проблемой было то, что слово «die» (умереть) было переведено как “штамп” (инструмент, металлическая форма для серийного изготовления изделий штамповкой, тиснением, давлением или чеканкой), и теперь оно надолго стало атрибутом его тела. Возможно, что автоматический переводчик не нашел в базе данных устойчивые выражения вроде “die free” — умереть свободным (кстати слово “free” — свободно, было также переведено неправильно, в значении “бесплатно”). Возможно, что часть текстов базы принадлежали индустриальной и коммерческой сфере, что и объясняет выбор значения “инструмент” вместо значения “смерть”.
Полагаться на “сырой” результат АП — такая же плохая идея, как если бы вы “украсили” все свое тело надписями на языке, которого вы не знаете. Но ошибочно было бы считать, что АП вовсе уж бесполезная вещь; это инструмент перевода с последующей редакцией текста человеком, который постепенно становится лучше и лучше. Проводятся многочисленные семинары, конференции, посвященные проблемам использования автоматизированного перевода. Чем больше мы будем делится своими идеями по улучшению АП, тем больше каждый из нас сможет выиграть. Однако не все компании согласны с этим, поскольку считают свои базы данных частной собственностью.
Причина, по которой компании не желают делиться своей информацией в том, что качество автоматизированного перевода улучшается быстро лишь в какой-то узкой сфере. Такое узкое ограничение увеличивает точность перевода в разы. И это негативная сторона при стремлении создать единый “движок” для универсального использования. Но эта проблема стирается, поскольку при необходимости быстро создаются новые улучшенные “движки” для пары языков и для сферы (при наличии достаточного количества обучающих текстов, поэтому появляется необходимость призывать компании к обмену информацией).
Это позволяет создать системы автоматизированного перевода, которые будут представлять собой более, чем просто быстрый и “приемлемый” переводчик, а также средство в помощь туристам. Уэйн Бурланд — сотрудник компании Dell,производящей компьютеры, заявляет, что использование АП с последующим редактированием человеком, сокращает время перевода на 40% для его компании, которая имеет локализованный сайт на 28 языках. Что еще важнее, АП экономит деньги: в частности, компания Dell сэкономила 40% бюджета, выделяемого на перевод, начиная с 2011г. По его подсчетам доходы компании Dell от инвестиций в АП составили 900% — цифры внушительные!
Что же ожидать в будущем: заменит ли АП полностью переводчиков-людей? Или, возможно, даже совсем отпадет необходимость изучать иностранные языки в далекой перспективе? На эти вопросы нам еще предстоит найти ответы.
Оригинал: http://www.economist.com/blogs/prospero/2014/06/computer-aided-translation