Прикладные аспекты квантитативной лингвистики
количественную оценку исследуемому феномену, выявляя его распределение по времени, по источникам, авторам и т.д.
Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в частности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания. При помощи контент-анализа появляется возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д. (см. подробнее §4 главы 5).
Компьютерное моделирования языка и речи.Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).
Дешифровка кодированного текста. Впроцессе дешифровки также могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста; ср. дешифровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н. Д. Андреева. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.
Авторизация/атрибуция текста.Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста [Виноградов 1961]. К субъективным факторам он относит: а) субъективно-
Дата добавления: 2016-09-20; просмотров: 1074;