Statistical machine translation

Статистический машинный перевод является отдельной технологией, которая основана на знаниях статистики и теории вероятности. Они появились не так давно (середина 2000-х), например, Яндекс разработал только в конце 2011 года, Гугл – на пару лет раньше. Такой перевод основывается не на правилах языка (в отличие от Rule-based), а на статистике. При этом система сравнивает тысячи параллельных текстов, содержащих информацию на разных языках, например, разноязычные версии сайтов организаций.

Система копит информацию о переводе тех или иных эквивалентов (от слов до предложений). При этом система машинного перевода имеет три основных модуля:

1. модель перевода;

2. модель языка

3. декодер

Модель перевода – таблица, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их переводы на другой язык и указана вероятность этих переводов. Модель перевода создается в три этапа:

1) Подбираются параллельные тексты, в них – пары предложений как сегменты, затем уже в каждом таком сегменте выделяется все меньшая единица – словосочетание или слово. Например, пусть даны два английских предложения:

1. London stands on the river Temse.

2. Ulianovsk is located on the bands of the river Volga.

Лондон находится на реке Темза.

Ульяновск находится на берегах реки Волга.

Т.е. вероятность эквивалента the river = река – 100%.

Соответственно, накопив такую базу эквивалентов, система расставляет вероятности перевода для каждого эквивалента и переходит к обработке с помощью модели языка. При этом модель языка также содержит данные по частотности и вероятности каждой из языковых единиц в выходном языке. Сам же декодер занимается уже непосредственно переводом, т.е. сборкой перевода: для каждого предложения исходного текста он подбирает все варианты перевода, сочетая между собой фразы из модели перевода и сортирует их по убыванию вероятности. Например:

Пользователь захотел перевести фразу «to be or not to be». Допустим, что из всех вариантов в модели перевода максимальная вероятность получилась у сочетания «быть или не бывает», а сочетание «быть или не быть» оказалось на нижестоящих позициях. Декодер идет в модель языка и просматривает уже вероятность (частотность) каждой из этих фраз. «Быть или не быть» в таком случае, естественно, будет на первом месте, ее и выберет декодер в качестве эквивалента.

Основная проблема со статистическими переводами связана с качеством модели перевода.

Computer-aided machine translation (CAT)

Эта технология появилась в 1980-х гг. в Японии, когда был выдвинут тезис и концепция о том, что типовые переводы можно накапливать в некоторых базах примеров, которые называют «translation memory». Соответственно, стали разрабатывать инструменты, которые позволили бы накапливать параллельные тексты в виде таких баз. Базы – файлы с расширением *.tmx. Появилось множество инструментов: TRADOS, DejaVu, OmegaT, SDL.

Появились открытые системы на облачных технологиях, например, ABBYY SmartCAT.

При работе этого инструмента возможно подключение дополнительных технологий и ресурсов, например, машинных переводчиков (Rule-based или Statistical). Копятся базы в формате .tmx, что удобно для типовых переводов.

Эта технология очень востребована в переводческих бюро, т.к. экономит затраты и время. Также она дает возможности накопления большого количества переводческих баз tmx-файлов по всем отраслям и типам текстов. Основная проблема на рынке CAT-технологий заключается в том, что tmx-файлы считаются интеллектуальной собственностью, отраслевые tmx-файлы очень дорогие (особенно юридической и финансовой тематики), вместе с этой технологией используются и другие необходимые ресурсы и средства, такие, как отраслевые глоссарии, которые подключаются к CAT-системам через специальные программные средства, например, в TRADOS это называется Multiterm. Файлы таких глоссариев имеют расширение .tbx.

<7 8 9 10 11 1213>

Дата добавления: 2015-04-21; просмотров: 1658;