На смену привычным программам-переводчикам приходят новые гибридные системы, обеспечивающие максимально естественный результат.
В прошлом году IT-компания Dudu Communications представила новую гибридную систему перевода Dudu-Translate, заявив, что новая разработка станет новым словом в машинном переводе. Ведь на сегодня ни одна программа не способна переводить так же хорошо, как человек. Однако, несмотря на многочисленные «перлы» и ошибки приложений для перевода, их популярность продолжает расти с каждым днем. Почему же это происходит?
Перевод как жизненная необходимость
Сегодня автоматические переводчики – один из самых востребованных видов приложений. Еще 10-15 лет назад были очень популярны программы для установки на ПК. Однако в последние годы, с развитием Глобальной паутины, первенство захватили онлайн-переводчики. И это неудивительно - 57% контента в Интернете представлено на английском языке. Вместе с тем на нем говорит лишь 27% пользователей Сети. Проблема языкового барьера особенно актуальна для России, где на английском уверенно говорит от 7% (в регионах) до 35% (в Москве) населения.
Популярность онлайн-решений доказывает статистика. В 2010 году портал Translate, один из самых популярных онлайн-переводчиков России, посетило 38,1 млн уникальных посетителей. Эта цифра сопоставима с численностью населения Польши. По данным на 27 июля 2012 года, одним только онлайн-словарем Abbyy Lingvo Pro одновременно пользуется порядка 8750 человек.
В России к помощи онлайн-переводчиков активно прибегают как частные, так и корпоративные пользователи. Большинство таких приложений бесплатно. А стоимость перевода 1 страницы текста «живым» специалистом колеблется от 350 до 500 руб., в зависимости от качества редактуры.
Но могут ли компьютерные переводчики – онлайн или «оффлайн» – дать результат сравнимый с «человеческим»? Чтобы это понять, поговорим о двух современных подходах к переводу – машинном и автоматизированном.
Автоматы против машин
В машинном переводе всю работу выполняет компьютерная программа. Такие системы отлично переводят отдельные слова, термины и устойчивые выражения. Однако получить ладный эквивалент целой фразы, не говоря уж о тексте, удается редко. Поэтому обычно машину проверяет человек-переводчик, который приводит текст в идеальный вид.
В отличие от машинной технологии, автоматизированный перевод – это всегда совместная работа человека и компьютера. Программа лишь помогает специалисту произвести готовый текст – либо за меньшее время, либо с лучшим качеством. Это достигается при помощи словарей или благодаря работе с Translation Memory. «Память переводов» – это хранилище уже переведенных текстов, благодаря которому одни и те же фразы не приходится обрабатывать дважды.
Статистика или правила?
В сфере машинного перевода есть два принципиально разных подхода: правиловый (rule-based) и статистический (statistical-based). Наиболее популярная концепция – основанная на правилах. Ее использует большинство разработчиков: например, Promt (и его онлайн-аналог Translate). Ко второму типу относится популярный «Переводчик Google».
Именно портал Translate и «Переводчик Google» являются самыми конкурентоспособными решениями среди традиционных систем перевода. Они обладают большими базами слов и словосочетаний, а также улучшенными алгоритмами перевода. Вот только применяемые ими статистический и правиловый подход в чистом виде не могут дать идеального перевода.
Статистический метод основан на использовании распространенных «языковых пар». Так называются связки из двух предложений на разных языках, но с одинаковым смыслом. Из всех вариантов перевода технология выбирает наиболее частотный – именно он используется в дальнейшем. Такой механизм обладает свойством «самообучения». Чем больше он накапливает языковых пар и чем точнее они соответствуют друг другу, тем выше качество перевода.
Главная проблема состоит в том, что для корректной работы нужно огромное количество фразовых связок. Для языков, которые редко используют в Сети, ситуация печальная – для них просто не найдется совпадений. А значит, перевод будет некачественным. Статистическая система по своей природе плохо справляется с морфологией и синтаксисом, может подменять смыслы фраз (особенно в художественных текстах, где используют метафоры). К тому же для обработки такого количества языковых пар необходимы большие мощности, доступные только на больших корпоративных или интернет-серверах.
Правиловый метод основан на применении алгоритмов, свойственных для разных направлений перевода: например, англо-русского или русско-французского. Кроме правил, используется словарная информация и грамматика конкретных языков. Этот подход можно сравнить с процессом мышления человека, выполняющего перевод. Качество перевода зависит от объемов словарей и того, насколько подробно описана грамматика языка.
Сильная сторона этой концепции – точное соблюдение синтаксиса и морфологии, стабильное качество перевода. Поэтому с помощью переводчиков на правиловом методе можно обрабатывать целые тексты. Однако чтобы создать достаточное количество алгоритмов перевода, нужно много времени и сил. Кроме того, систему придется постоянно обновлять: ведь языки быстро меняются.
Вспомнить всё
Отдельно стоит назвать Translation Memory – верного помощника для специалистов и компаний-переводчиков. Это уже автоматизированный перевод, когда человек в основном работает с текстом, полученным от машины. Такая система избавляет от необходимости повторно переводить отрывки текста, которые уже есть в базе. Особенно это полезно в технических, юридических и других специализированных переводах. Перевод фрагментов, о которых система «не знает», а также синтаксис и морфология – уже задача «живого» переводчика. Всё это повышает качество и скорость выполнения переводов, а также экономит трудозатраты.
Будущее – за гибридами
Итак, самые популярные системы перевода – правиловые и статистические – имеют весомые недостатки. Однако если два подхода соединить в один, минусы превращаются в плюсы. Так появились гибридные системы машинного перевода. Гибридный подход берет грамматическую точность от правилового метода и «гладкость» перевода от статистического.
Одним из новейших представителей смешанной механики является Dudu-Translate – система машинного перевода, созданная компанией Dudu Communications. Как и правиловые аналоги, проект использует универсальные алгоритмы перевода, подходящие абсолютно для всех языков. Однако перевод всегда корректируется с помощью языковых пар – они собираются, как в статистическом методе.
Система обладает еще одним конкурентным преимуществом – компактными базами данных. Они имеют удобную древовидную структуру, за счет чего скорость доступа к данным максимальна. А «вес» массива, в свою очередь, минимален. Например, для англо-русского словаря это всего несколько мегабайт.
На стартовом этапе в настройке Dudu-Translate участвуют и «живые» люди. Для сбора новых языковых пар и правил перевода используется еще одна разработка компании - социальная сеть Dudu. Dudu-Translate, интегрированная в социальный сервис, обучается на основе реальных диалогов. При этом все тексты в сети переводятся на родной язык пользователя. Таким образом, благодаря Dudu-Translate каждый человек может общаться с иностранцами, читать их статусы и заметки.
В будущем на основе системы планируется создать первую в мире глобальную лингвистическую базу – своеобразную «Языкопедию». Эта масштабная база данных вместит информацию обо всех языках мира – и позволит их переводить. Система будет полностью открытой, и к ней будут подключены лингвистические вузы, научные организации и ученые.
Идеальная система перевода – фантастика или реальность?
Все чаще люди пользуются услугами программ-переводчиков, а не специалистов. При работе со специализированными текстами – техническими или деловыми – работа машины достаточно эффективна. Например, более половины текстов внутри Еврокомиссии переводится с использованием машины. К тому же для людей, не владеющих иностранным языком, онлайн-приложение – самый доступный инструмент. Ведь даже при плохом переводе общий смысл написанного почти всего можно понять.
Однако в обозримом будущем часть рынка останется за переводчиком-человеком. Только человеческий разум может произвести художественный, сложный технический или медицинский перевод с высоким уровнем ответственности. Дело в том, что на сегодня ни одна машина не умеет различать смысловые оттенки так, как человек. Идеального перевода грамматики и слов недостаточно для идеального перевода смысла. Поэтому для нового шага в развитии машинного перевода необходим новый шаг в технологиях. Нужна система, ориентированная на семантику. Перевод должен учитывать не только структуру фраз, но и контекст, а также смысловое наполнение текста.
Сегодня такие перспективы имеет именно гибридная технология. Сочетая элементы разных механик, она максимально близко эмулирует работу человеческого мозга. И чем больше система обучается на примере «живой» речи, тем лучше она распознает смысловые нюансы. А значит, в перспективе идеальный машинный перевод может стать реальностью.