Прикладные аспекты квантитативной лингвистики

количественную оценку исследуемому феномену, выявляя его распреде­ление по времени, по источникам, авторам и т.д.

Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в част­ности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания. При помощи контент-анализа по­является возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики полити­ческих дискуссий и т.д. (см. подробнее §4 главы 5).

Компьютерное моделирования языка и речи.Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компью­терные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользова­тель может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автома­тического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информатив­ными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некото­рую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).

Дешифровка кодированного текста. Впроцессе дешифровки также могут использоваться данные о частоте употребления графем, мор­фем и слов, а также их взаимном расположении. К настоящему вре­мени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста; ср. дешифровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н. Д. Андреева. Близки к задачам дешифровки формальные процеду­ры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.

Авторизация/атрибуция текста.Проблема авторизации текста отно­сится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингви­стическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста [Виноградов 1961]. К субъективным факторам он относит: а) субъективно-









Дата добавления: 2016-09-20; просмотров: 1019;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.003 сек.