Корпусная лингвистика 135


 


занимающиеся обработкой текстов, чаще всего создают свое собственное программное обеспечение, которое, однако, далеко не всегда позволяет выполнять все необходимые операции. Общая проблема программ это­го класса — проблема группировки текстов, отвечающих какому-либо признаку. Наиболее часто используемые программы предлагают поль­зователям создавать список текстов вручную. Начнем с того, что эта процедура требует от пользователя определенных знаний о компьютере и изрядного терпения, чтобы, скажем, ввести в текстовом редакторе список типа:

c:\dost\txt\bs.txt

c:\dost\txt\bkl.txt

c:\dost\txt\bk2.txt

c:\dost\txt\podr.txt

Кроме того, следует отметить, что когда количество текстов корпуса превышает 1 000 единиц хранения (что имеет место в данном случае), и имя файла не всегда отражает все признаки текста, пользователь про­сто не в состоянии это сделать вручную. Процедура составления списка текстов должна быть максимально упрощена. От пользователя можно по­требовать лишь указания интересующих его параметров текста — издание, автор, тематика, жанр и т. п.

Получение конкордансов и словников.Система позволяет осуще­ствлять следующие функции:

1. Стандартный просмотр текстов, входящих в состав корпуса (в виде просмотра таблицы базы данных).

2. Выборка и упорядочивание текстов по указанным формальным или содержательным признакам, а также на основе различных их комби­наций. В системе реализован стандартный набор типовых запросов в виде выбора из списка, автоматически переводимых затем на язык SQL; возможен также ручной ввод запросов на SQL.

3. Получение текстовых массивов, являющихся подмножествами исход­ного корпуса на основе изменяемой случайной выборки и задания процентов от общего корпуса по одному из параметров.

4. Просмотр массивов-подмножеств и их обработку: получение слов­ников и списков контекстов (конкордансов).

Формирование корпуса текстов.Размеченные в соответствии с описан­ными выше параметрами тексты представляют собой лишь сырой матери­ал. Отметим, что в традиционной технологии это и есть окончательный результат. В технологии динамического корпуса текстов размеченный исходный массив является источником для формирования конкретных корпусов, более точно отражающих информационную потребность поль­зователя. Массив хранится в виде базы данных, а каждый отдельный текст — в одной записи (параметры — в текстовых и числовых полях, са­ма статья — в поле MEMO). Перевод размеченных текстов в формат базы данных осуществляется с помощью специальной служебной утилиты.


Состояние проекта.К настоящему времени сформирован корпус тек­стов по современной публицистике объемом 15 мегабайт (около 7,5 тыс. страниц). Корпус можно оценить как представительный с точки зрения параметров, которые были определены для отбора текстов в результиру­ющий массив. Иными словами, все значения параметров и их сочетания (за исключением малочастотных и невозможных) представлены в кор­пусе. Например, в журнале «Новый мир» не были обнаружены статьи по финансам, а в журнале «Эксперт» — по литературе. Тем самым эти сочетания значений параметров (издание «Новый мир» & тематика «фи­нансы» и, соответственно, издание «Эксперт» & тематика «литература») в результирующем корпусе не представлены. С другой стороны, темати­ка «внутренняя политика» сочетается в исходном массиве практически со всеми привлекавшимися изданиями. Следовательно, в корпус были введены тексты, в которых реализуются все встретившиеся сочетания те­матики «внутренняя политика» с названиями представленных в корпусе газет и журналов: «внутренняя политика» & «Новый мир», «внутренняя политика» & «Московские новости», «внутренняя политика» & «Итоги», «внутренняя политика» & «Российская газета» и т. д.

Созданный корпус текстов по современной русской публицисти­ке с точки зрения выбранных параметров может рассматривается как модель функционирования языка современной публицистики в дис­курсе. Наиболее полно в корпусе представлены следующие источники: «Век» (около 8 %), «Завтра» (около 14 %), «Известия» (около 5 %), «Итоги» (около 11 %), «Литературная газета» (около 6%), «Московские новости» (более 8 %), «Независимая газета» (около 6 %), «Новый мир» (около 12 %), «Российская газета» (около 8 %).

В имеющейся версии корпуса и программного обеспечения имеет­ся возможность варьирования набора текстов по следующим параметрам: 1) источник; 2) автор; 3) время публикации; 4) тема текста; 5) жанр текста (внутри «публицистического» стиля). Программная оболочка содержит четыре стандартных варианта корпуса — полный корпус, а также про­порциональные сужения (до 25 %) по изданиям, темам и жанрам соответ­ственно. Пользователь может формировать собственный корпус из имею­щихся текстов, запоминать его конфигурацию и производить обработку. Разработанный программный продукт, являющийся одновременно источником языковых данных, представляется уникальным в двух отно­шениях. Во-первых, это первый корпус по русскому языку, в котором представлен язык российской публицистики. Близкие по жанру корпусы текстов, даже относящиеся к другому временному отрезку, к настоящему времени отсутствуют. Во-вторых, создана новая технология организации и эксплуатации корпуса текстов — концепция «динамического корпуса текстов», которая более гибка по сравнению с традиционной и предоста­вляет пользователю существенно больше информации о составе корпуса и больше возможностей адаптации исходного массива к конкретной лин­гвистической (и не только лингвистической) задаче. Следует заметить,









Дата добавления: 2016-09-20; просмотров: 536;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.005 сек.