Корпусная лингвистика 121
Имеющиеся компьютерные программы, ориентированные на обработку корпуса текстов, строятся по двум основным стратегиям. В первом случае программа порождает для текста комплекс указателей, в частности, указатель словоформ, в котором для каждой словоформы указывается адрес в тексте. В дальнейшем при составлении конкордансов программа оперирует не столько текстом как таковым, сколько указателями к нему. Типичный пример программ такого типа — программные пакеты UNILEX (Машинный фонд русского языка) [Мошкович 1989], а также американские программы ETC и WORD CRUNCHER (более поздняя версия пакета ETC; компания Electronic Text Corporation и Brigham Young University) [WordCruncher 1989 a; WordCruncher 1989 b]. В Великобритании используется аналогичный по функции пакет ОСР (Oxford Concordance Program), а в Германии — программа TEXTPACK[25]. При второй стратегии для поиска необходимых контекстов программа каждый раз последовательно просматривает текст, маркируя те фрагменты, которые удовлетворяют поисковому заданию (см., например, программа DIALEX-DIAWIN — отдел экспериментальной лексикографии Института русского языка РАН [Исаев 1996]). Достоинства и недостатки первой и второй стратегии связаны с двумя факторами: с необходимостью предварительной обработки корпуса (подготовки его к составлению конкордансов) и с объемом корпуса. Первая стратегия (программы типа UNILEX) предполагает предварительное разбиение текстов на модули и составление больших указателей, что, разумеется, требует значительного рабочего времени и наличия больших ресурсов памяти.
Совершенно иная ситуация с программами, работающими по второй стратегии (программы типа DIALEX): указатели, которые они строят по корпусу текстов, являются временными и уничтожаются по мере выполнения алгоритма. Они не требуют предварительной обработки корпуса, членения текстов на отдельные модули и т. п. Но программы такого рода должны использовать очень продуктивные подпрограммы обработки текста, поскольку каждый поиск предполагает сплошной просмотр корпуса. Фактически программы типа DIALEX состоят из «кирпичиков» — очень продуктивных программ-перекодировщиков типа «FT». Основной недостаток второй стратегии заключается в том, что значительное увеличение массива текстов в корпусе существенно замедляет работу программы. В настоящее время эта пороговая величина находится на уровне 100 мегабайт. В этом случае более выгодно использовать программы типа UNILEX, работающие при составлении конкордансов не с текстами как таковыми, а с указателями к ним. Очевидно, однако, что разметка 80-100-мегабайтного корпуса и составление к нему указателей потребует значительного времени[26].
Особого программного обеспечения требуют корпусы параллельных текстов. Программа MULTICONCORD позволяет строить конкордансы и устанавливать соответствия между фрагментами оригинального текста и его переводами на другие языки [Groß, Mißler, Wolff 1996]. В настоящее время MULTICONCORD работает с корпусом из шести языков — английский, немецкий, французский, греческий, итальянский и датский (текст на источниковом языке и пять текстов на целевых языках). Для разных текстов целевые языки и языки-источники варьируются. Корпус параллельных текстов полностью интегрирован в программу. Он включает разнообразные литературные тексты — романы, драмы, короткие рассказы, а также публицистику, информационные тексты, анекдоты. Программа дает возможность производить поиск по разным языкам, разным словам, словоформам и словосочетаниям. Ср. фрагмент поиска на английский глагол look в оригинальном тексте «Alice in Wonderland» и его лексические эквиваленты в переводе на немецкий язык:
First, she tried to look downand make out what she was coming to, but it was too dark to see anything; | Als erstens spähtesie in die Tiefe hinab,um zu erkennen, was ihr dort bevorstand, aber es war so dunkel, daß man nichts sehen konnte; |
It was as much as she could do, lying down on one side, to look throughinto the garden with one eye; | Wenn sie sich seitlich hinlegte, konnte sie mit einem Auge gerade noch in den Garten hinausblicken,aber mehr auch nicht, und dorthin zu gelangen war aussichtsloser denn je; |
Результаты поиска могут сортироваться по объему, алфавиту, по произведениям, авторам и т.д. Предполагается использовать MULTICONCORD на занятиях по изучению иностранных языков, литературы и в сфере контрастивной лингвистики.
Основная проблема в построении корпусов параллельных текстов и разработке пакетов программ для их обработки заключается в установлении соответствий между оригинальными текстами и переводами. Понятно, что тривиальное соответствие по словам или предложениям здесь невозможно. Теоретически обоснованным было бы использование технологий систем машинного перевода с языком-посредником или универсальным языком, однако в настоящее время такой подход вряд ли возможен. Насколько можно судить, создатели программы MULTICONCORD в простых случаях устанавливали лексические соответствия, а в случае свободного перевода индексировали целые фрагменты предложений или текстов.
Дата добавления: 2016-09-20; просмотров: 1160;