Морфологический анализ

Текст запроса разбивается на словоформы – отрезки текста между пробелами, исключая знаки препинания. Затем каждой словоформе приписывается так называемая морфологическая информация - грамматическое значение словоформы, например, часть речи, число, падеж и т.д. Выявление этой информации возможно за счет выделения основ и аффиксов словоформ.

Аффиксы – это части слова за исключением корня (основы). Могут быть: префиксы (перед корнем, например, приставки), постфиксы,, или флексии (после корня, например, суффиксы и окончания), интерфиксы (между корнями в сложных словах). Аффиксы делятся на словообразующие (суффиксы), например, студен – ческий, и словоизменительные (окончания), например, студент– а, студент – ом. Основа – это слово с отсеченными словообразующими и словоизменительными аффиксами. Морфологическая информация приписывается по значению словоизменительных аффиксов.

 

Этапы морфологического анализа:

1) поиск словоформы в словаре основ. Если словоформа найдена, ей приписывается соответствующая морфологическая информация, и морфологический анализ для нее заканчивается. Иначе – второй этап;

2) определение морфологического типа и части речи. Используется таблица словоизменительных аффиксов (таблица аффиксов на рисунке 5.9) для отсечения от словоформы предполагаемых аффиксов;

3) получение списка гипотетических основ и значений грамматических категорий. Здесь уточняется часть речи и морфологический тип с помощью вспомогательной таблицы суффиксов и квазисуффиксов - исходов основ (на рисунке 5.9 – таблица аффиксов).

 

Например, выполним морфологический анализ предложения

 

СТУДЕНТОМ РАССМОТРЕНЫ ВОПРОСЫ МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ?

 

при условии, что данные словоформы отсутствуют в словаре основ, т.е. для них выполняются оставшиеся два этапа морфологического анализа.

Для выполнения первого шага используем фрагмент таблицы словоизменительных аффиксов (таблица 5.1).

Таблица словоизменительных аффиксов

Таблица 5.1

аффикс часть речи морфологические типы[7] род число падеж одушевленность пассивность примеры
Ы существительное 1,2,7 м мн. им. любая - месяцы
существительное 13,18 ж мн. им. любая - улицы
существительное 13,18 ж ед. род. любая - карты
прилагательное любой мн. им. вин. любая - отцовы
ОМ существительное м ср ед. твор. любая - столом
Й существительное 8,9 м ед. им. любая - герой
существительное 19,20 ж мн. род. любая - линий
существительное сред мн. род. любая - зданий
ЫХ прилагательное 1,5,6,9 любой мн. вин. род. неодушевленный - грузовых
ИЙ прилагательное 2,3,4,8 м ед. им. вин. неодушевленный - воинский
ЕНЫ глагол любой мн. - любая пассив вручены

 

Каждая из словоформ исходной фразы сопоставляется с графой аффиксы с целью определения подходящего аффикса и «отрезания» его от словоформы. В результате образуется основа, которой приписывается некоторая морфологическая информация. Например, словоформе ВОПРОСЫ соответствует аффикс Ы. Его удаление из словоформы дает основу ВОПРОС и два набора морфологической информации. Первый набор связан с частью речи существительное, второй – с частью речи прилагательное. Результирующее множество морфологических типов образуется путем объединения множеств морфологических типов для соответствующих частей речи.

Результат определения морфологического типа и выделения основы для нашего примера показан в таблице 5.2.

 


Результат первого этапа морфологического анализа из примера

Таблица 5.2

основа часть речи морфологические типы
СТУДЕНТ существительное
РАССМОТР глагол
РАССМОТРЕН существительное 1,2,7,13,18
РАССМОТРЕН прилагательное
ВОПРОС существительное 1,2,7,13,18
ВОПРОС прилагательное
МЕЖДУНАРОДН прилагательное 1,5,6,9
ОТНОШЕНИ существительное 8,9,19,20,27
ОТНОШЕН прилагательное 2,3,4,8

 

Серьезный недостаток полученного результата – двойственное описание основы ВОПРОС и неоднозначность выделения основ для исходных словоформ РАССМОТРЕНЫ и ОТНОШЕНИЙ. Полученная неоднозначность устраняется на втором шаге.

Пусть таблица суффиксов и квазисуффиксов имеет вид таблицы 5.3.

 

Таблица суффиксов и квазисуффиксов

Таблица 5.3

признак значение часть речи морфологические типы
суффикс ЕН глагол
квазисуффикс С существительное 1,6,8,12
квазисуффикс Н прилагательное 1,3,6
суффикс ЕНИ существительное

 

Для основы РАССМОТРЕН выбирается суффикс ЕН. Однако части речи не совпадают, поэтому данная основа рассматривается как неверно выделенная. Оставшейся основе РАССМОТР соответствуют суффикс ЕН и квазисуффикс Н. Поскольку суффикс имеет больший приоритет, чем квазисуффикс, принимается суффикс ЕН и соответствующая ему морфологическая информация.

Для основы ВОПРОС выбирается квазисуффикс С. Пересечение этих двух таблиц показывает, что общий морфологический тип – 1, значит, у основы ВОПРОС морфологический тип – 1, а часть речи - существительное. В этом случае с данной основой связывается вся морфологическая информация, соответствующая морфологическому типу 1. Аналогично и для остальных основ.

Тогда результат второго шага выделения основы имеет вид таблицы 5.4:

 

Результат второго этапа морфологического анализа из примера

Таблица 5.4

гипотетическая. основа часть речи род число падеж одушевленность пассивность морфологические типы
СТУДЕНТ существительное м ср ед. твор. любая -
РАССМОТРЕН глагол любой мн. - любая пассив
ВОПРОС существительное м мн. им. любая -
МЕЖДУНАРОДН прилагательное любой мн. вин. род. неодушевленный - 1,6
ОТНОШЕНИ существительное ср мн. род. любая -







Дата добавления: 2015-02-05; просмотров: 1648;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.011 сек.