Корпусная лингвистика 133
проблемной области. Верхний предел корпуса ограничивался прагматическими соображениями — местом на носителе информации и скоростью работы сервисных программ.
Как уже говорилось выше, разные пользователи предъявляют различные требования к корпусу. Нельзя не учитывать и тот факт, что многие пользователи могут оказаться нелингвистами. Этих людей будет интересовать отражение конкретных событий в прессе определенного периода, они захотят читать целые тексты, а не отбирать ограниченные по объему примеры употребления. Чтобы учесть разнообразные интересы, необходимо составлять корпус из целых текстов, а не из отрывков, как зачастую практиковалось в начальный период развития корпусной лингвистики[30]. Следует учитывать, что лингвисты разных профилей предъявляют разные требования к корпусу данных. Для исследований по морфологии и синтаксису, как правило, не требуется очень больших массивов текстов. В ряде случаев это просто нежелательно: например, объем конкордансов на употребление служебных слов типа или, да, нет может достигать нескольких тысяч страниц. На один интересный пример может приходится сотня тривиальных. Для исследований по грамматике представляется важным иметь в корпусе тексты, различающиеся по структуре и по жанру. В то же время массив текстов должен быть достаточно большим, чтобы обеспечить получение примеров на редкие слова. Только в этом случае корпус будет представлять интерес для лексикологов и лексикографов.
Таким образом, задача составителей корпуса текстов — постараться по возможности учесть интересы различных пользователей. Для этого необходимо, чтобы все тексты, входящие в корпус, были снабжены достаточно подробным «поисковым образом», который позволил бы программному обеспечению «фильтровать» исходный большой массив, исходя из нужд пользователя.
В отличие от корпуса языка Достоевского, корпус по современной публицистике потребовал разработки сетки параметров, позволяющих осуществить инвентаризацию проблемной области и обеспечить ее репрезентативное представление в корпусе. Единицей хранения корпуса текстов по публицистике является текст или его относительно законченный фрагмент. Параметризация проблемной области при формировании корпуса текстов по современной публицистике основывается на следующих основных факторах:
• фактор автора текста: журналист/непрофессиональный политик vs. профессиональный политик (распределение по политикам учитывает как крупных политических деятелей типа Ельцина, Путина, Черномырдина, Немцова, Хакамады, Селезнева, Гайдара, Жириновского, так и политиков второго ряда); отдельно стоит проблема выявления «команд спичрайтеров», определяющих собственно языковое
оформление текста — в ряде случаев данная проблема решается довольно легко, но для многих текстов это не возможно в принципе;
• фактор персонификации-деперсонификации автора (конкретный человек vs. партия/общественное движение/политическая организация/учреждение vs. деперсонифицированный текст — лозунги, передовицы и т. п.);
• фактор адресата (кому адресован текст: сторонники — противники — нейтральная аудитория; профессиональная ориентация — выступление перед шахтерами; творческой интеллигенцией и пр.);
• фактор прагматических условий порождения текста (речь на митинге — речь на заседании институционального органа —- интервью — пресс-конференция (всего было учтено 15 типов условий произнесения));
• фактор источника: журнальный текст — книжный текст — листовка — агитационный плакат — лозунг — телевидение — радио;
• коммуникативное распределение (монологический текст — диалог;
общие типы иллокуций: демонстрация намерений, например, поли
тическая программа — аргументативный диалог и пр.).
На основе сформулированных факторов была сформирована матрица параметров, позволившая выделить из проблемной области около 70 типов текстов. Эта типология и была положена в основу отбора текстов
в корпус.
Кодировка единиц хранения массива.После параметризации текстов были определены те характеристики, которые фиксировались в дескрипции каждого текста в корпусе (о фасетной формуле — см. особенности организации фактографических информационно-поисковых систем в § 4 главы 4): 1) источник (значения параметра: «Век», «Дружба народов», «Завтра», «Знамя», «Известия», «Итоги», «Молодая гвардия», «Московский комсомолец» и т.д.); 2) автор (около 1000 авторов); 3) название статьи (1 368 названий); 4) политическая ориентация издания («общедемократическая» пресса; «левая» пресса); 5) жанр (значения параметра: «воспоминания», «интервью», «критика», «круглый стол», «очерк», «проблемная статья», «репортаж», «рецензия», «фельетон»); 6) тема (значения параметра: «внутренняя политика», «внешняя политика», «литература», «искусство» — всего 39 различных тем); 7) время (период 90~х гг.; было включено также несколько характерных статей периода «ранней перестройки»).
Программное обеспечение.Корпус текстов очень сильно проигрывает, если к нему не сделан «дружественный» пользовательский интерфейс, позволяющий производить обработку текстов и не требующий специальной подготовки пользователя.
Вообще, следует отметить, что в настоящее время не существует стандартного программного пакета обработки текстов, который удовлетворял бы нужды всех пользователей, работающих с письменными источниками (см. по этому поводу выше). По этой причине организации,
Дата добавления: 2016-09-20; просмотров: 657;