Глава 3. Оптимизация эпистемической функции языка. §3. Корпусная лингвистика_____________________ 131
§3. Корпусная лингвистика_____________________ 131
• жанровое распределение (предпочтение отдавалось жанрам, отражающим такие сферы функционирования языка, для которых типично употребление частиц: газетные и журнальные интервью; тексты радио- и телевизионных дискуссий; драматургические произведения; поэзия представлена минимально; классическая литература также представлена образцами, в которых широко используются дискурсивные слова).
В настоящее время корпус по дискурсивным словам русского языка включает около 30 мегабайт (приблизительно 15 тысяч страниц) текстов.
Корпус текстов словаря языка Достоевского.Текстовый корпус Достоевского создавался как источник для словаря языка Достоевского. Параметры организации корпуса определялись правилами построения словарной статьи: поскольку словарная статья предполагала составление указателя ко всем употреблениям слова, то корпус должен был охватывать все тексты Достоевского — как художественные, так и публицистические. Тем самым сложности, связанные с разработкой теоретических оснований отображения проблемной области, отсутствовали. В качестве основного текстового источника использовалось академическое полное собрание сочинений Ф. М. Достоевского. Единицей хранения в корпусе текстов словаря является отдельное произведение (любого размера — от романа до письма). К настоящему времени на машинных носителях находятся все художественные произведения, публицистика и эпистолярное наследие писателя. Корпус хранится в ASCII формате с минимальной разметкой, позволяющей осуществлять адресацию к произведению и странице по полному собранию сочинений. Для программной поддержки был разработан специальный пакет программ DIALEX-DIAWIN, идейную основу которого заложил М. Марон. Окончательное оформление пакета, доведение его до рабочего вида и дальнейшее развитие осуществлено И.Исаевым [Исаев 1996].
Основное направление развития Корпуса текстов словаря Достоевского в настоящее время — совершенствование программного обеспечения и технологии подготовки словаря. Кроме того, осуществляется ряд исследований, в результате которых предполагается получить словари, которые можно будет использовать для лингвистического изучения корпуса текстов Достоевского. Сейчас готов частотный словарь, составленный А. Я. Шайкевичем. Сформирована база данных по идиоматике Достоевского для словаря идиом писателя.
Корпус текстов словаря языка Достоевского существует также в CD-ромной версии («Достоевский: Тексты, исследования, материалы»), распространяемой вместе с программами обработки корпуса, базой данных по идиоматике и базой данных по частотному словарю, составленному А. Я. Шайкевичем.
Динамический корпус текстов по современной публицистике (90-е гг.)[29].
Этот корпус текстов относится к числу новых проектов, осуществляемых в отделе экспериментальной лексикографии Института русского языка РАН. Основная цель проекта — дать источник для проведения различных лингвистических исследований, ориентированных на изучение изменений языковой системы в период перестройки и постперестройки. В 90-е гг. произошли существенные изменения в языке средств массовой информации, в политическом дискурсе, что оказало существенное влияние на художественную прозу, научный язык и пр.
Динамический корпус текстов как новая технология прикладной лингвистики.Как было показано выше, корпус текстов в идеальном случае должен удовлетворять критерию репрезентативности и в то же время быть существенно меньше проблемной области, которую он отражает. С другой стороны, репрезентативность корпуса прямо связана и с теми задачами, которые стоят перед исследователем. Сложность совмещения требований статистической репрезентативности и установок пользователя приводит к тому, что многие значительные по объему корпусы вообще не имеют четких критериев отбора текстов. В проекте динамического корпуса текстов по современной публицистике была предложена такая стратегия формирования, которая позволяет каждому пользователю получить для решения конкретной задачи из базового массива свое подмножество текстов. Базовый, исходный массив текстов, из которого осуществляется отбор, вместе с программным обеспечением называется динамическим корпусом текстов.
Получение репрезентативного корпуса текстов по публицистике представляет собой сложную задачу, поскольку количество периодических изданий огромно, а количество текстов, появляющихся даже в течение одного дня, с трудом поддается исчислению. Эти тексты пишет целая армия журналистов и аналитиков, да и сами тексты сильно отличаются как по форме, так и по тематике. Отдельной проблемой, которую мы здесь не затрагиваем, является определение понятия публицистического текста. При формировании массива авторская группа опиралась на интуицию: не включались чисто информативные тексты, краткие заметки, лишенные авторского взгляда на описываемое положение дел, и т. п.
Стратегия формирования исходного массива. Вплане репрезентативности основное внимание было обращено на выбор периодических изданий различной ориентации наиболее важных для общественного сознания в исследуемый период, и на соблюдение пропорции, учитывающей значимость и популярность последних. Кроме того, вторым важным фактором организации корпуса был количественный критерий: текстов должно было быть достаточно много, чтобы отразить все релевантные свойства
Дата добавления: 2016-09-20; просмотров: 741;