Корпусная лингвистика 135
занимающиеся обработкой текстов, чаще всего создают свое собственное программное обеспечение, которое, однако, далеко не всегда позволяет выполнять все необходимые операции. Общая проблема программ этого класса — проблема группировки текстов, отвечающих какому-либо признаку. Наиболее часто используемые программы предлагают пользователям создавать список текстов вручную. Начнем с того, что эта процедура требует от пользователя определенных знаний о компьютере и изрядного терпения, чтобы, скажем, ввести в текстовом редакторе список типа:
c:\dost\txt\bs.txt
c:\dost\txt\bkl.txt
c:\dost\txt\bk2.txt
c:\dost\txt\podr.txt
Кроме того, следует отметить, что когда количество текстов корпуса превышает 1 000 единиц хранения (что имеет место в данном случае), и имя файла не всегда отражает все признаки текста, пользователь просто не в состоянии это сделать вручную. Процедура составления списка текстов должна быть максимально упрощена. От пользователя можно потребовать лишь указания интересующих его параметров текста — издание, автор, тематика, жанр и т. п.
Получение конкордансов и словников.Система позволяет осуществлять следующие функции:
1. Стандартный просмотр текстов, входящих в состав корпуса (в виде просмотра таблицы базы данных).
2. Выборка и упорядочивание текстов по указанным формальным или содержательным признакам, а также на основе различных их комбинаций. В системе реализован стандартный набор типовых запросов в виде выбора из списка, автоматически переводимых затем на язык SQL; возможен также ручной ввод запросов на SQL.
3. Получение текстовых массивов, являющихся подмножествами исходного корпуса на основе изменяемой случайной выборки и задания процентов от общего корпуса по одному из параметров.
4. Просмотр массивов-подмножеств и их обработку: получение словников и списков контекстов (конкордансов).
Формирование корпуса текстов.Размеченные в соответствии с описанными выше параметрами тексты представляют собой лишь сырой материал. Отметим, что в традиционной технологии это и есть окончательный результат. В технологии динамического корпуса текстов размеченный исходный массив является источником для формирования конкретных корпусов, более точно отражающих информационную потребность пользователя. Массив хранится в виде базы данных, а каждый отдельный текст — в одной записи (параметры — в текстовых и числовых полях, сама статья — в поле MEMO). Перевод размеченных текстов в формат базы данных осуществляется с помощью специальной служебной утилиты.
Состояние проекта.К настоящему времени сформирован корпус текстов по современной публицистике объемом 15 мегабайт (около 7,5 тыс. страниц). Корпус можно оценить как представительный с точки зрения параметров, которые были определены для отбора текстов в результирующий массив. Иными словами, все значения параметров и их сочетания (за исключением малочастотных и невозможных) представлены в корпусе. Например, в журнале «Новый мир» не были обнаружены статьи по финансам, а в журнале «Эксперт» — по литературе. Тем самым эти сочетания значений параметров (издание «Новый мир» & тематика «финансы» и, соответственно, издание «Эксперт» & тематика «литература») в результирующем корпусе не представлены. С другой стороны, тематика «внутренняя политика» сочетается в исходном массиве практически со всеми привлекавшимися изданиями. Следовательно, в корпус были введены тексты, в которых реализуются все встретившиеся сочетания тематики «внутренняя политика» с названиями представленных в корпусе газет и журналов: «внутренняя политика» & «Новый мир», «внутренняя политика» & «Московские новости», «внутренняя политика» & «Итоги», «внутренняя политика» & «Российская газета» и т. д.
Созданный корпус текстов по современной русской публицистике с точки зрения выбранных параметров может рассматривается как модель функционирования языка современной публицистики в дискурсе. Наиболее полно в корпусе представлены следующие источники: «Век» (около 8 %), «Завтра» (около 14 %), «Известия» (около 5 %), «Итоги» (около 11 %), «Литературная газета» (около 6%), «Московские новости» (более 8 %), «Независимая газета» (около 6 %), «Новый мир» (около 12 %), «Российская газета» (около 8 %).
В имеющейся версии корпуса и программного обеспечения имеется возможность варьирования набора текстов по следующим параметрам: 1) источник; 2) автор; 3) время публикации; 4) тема текста; 5) жанр текста (внутри «публицистического» стиля). Программная оболочка содержит четыре стандартных варианта корпуса — полный корпус, а также пропорциональные сужения (до 25 %) по изданиям, темам и жанрам соответственно. Пользователь может формировать собственный корпус из имеющихся текстов, запоминать его конфигурацию и производить обработку. Разработанный программный продукт, являющийся одновременно источником языковых данных, представляется уникальным в двух отношениях. Во-первых, это первый корпус по русскому языку, в котором представлен язык российской публицистики. Близкие по жанру корпусы текстов, даже относящиеся к другому временному отрезку, к настоящему времени отсутствуют. Во-вторых, создана новая технология организации и эксплуатации корпуса текстов — концепция «динамического корпуса текстов», которая более гибка по сравнению с традиционной и предоставляет пользователю существенно больше информации о составе корпуса и больше возможностей адаптации исходного массива к конкретной лингвистической (и не только лингвистической) задаче. Следует заметить,
Дата добавления: 2016-09-20; просмотров: 529;