Морфологический анализ
Текст запроса разбивается на словоформы – отрезки текста между пробелами, исключая знаки препинания. Затем каждой словоформе приписывается так называемая морфологическая информация - грамматическое значение словоформы, например, часть речи, число, падеж и т.д. Выявление этой информации возможно за счет выделения основ и аффиксов словоформ.
Аффиксы – это части слова за исключением корня (основы). Могут быть: префиксы (перед корнем, например, приставки), постфиксы,, или флексии (после корня, например, суффиксы и окончания), интерфиксы (между корнями в сложных словах). Аффиксы делятся на словообразующие (суффиксы), например, студен – ческий, и словоизменительные (окончания), например, студент– а, студент – ом. Основа – это слово с отсеченными словообразующими и словоизменительными аффиксами. Морфологическая информация приписывается по значению словоизменительных аффиксов.
Этапы морфологического анализа:
1) поиск словоформы в словаре основ. Если словоформа найдена, ей приписывается соответствующая морфологическая информация, и морфологический анализ для нее заканчивается. Иначе – второй этап;
2) определение морфологического типа и части речи. Используется таблица словоизменительных аффиксов (таблица аффиксов на рисунке 5.9) для отсечения от словоформы предполагаемых аффиксов;
3) получение списка гипотетических основ и значений грамматических категорий. Здесь уточняется часть речи и морфологический тип с помощью вспомогательной таблицы суффиксов и квазисуффиксов - исходов основ (на рисунке 5.9 – таблица аффиксов).
Например, выполним морфологический анализ предложения
СТУДЕНТОМ РАССМОТРЕНЫ ВОПРОСЫ МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ?
при условии, что данные словоформы отсутствуют в словаре основ, т.е. для них выполняются оставшиеся два этапа морфологического анализа.
Для выполнения первого шага используем фрагмент таблицы словоизменительных аффиксов (таблица 5.1).
Таблица словоизменительных аффиксов
Таблица 5.1
аффикс | часть речи | морфологические типы[7] | род | число | падеж | одушевленность | пассивность | примеры |
Ы | существительное | 1,2,7 | м | мн. | им. | любая | - | месяцы |
существительное | 13,18 | ж | мн. | им. | любая | - | улицы | |
существительное | 13,18 | ж | ед. | род. | любая | - | карты | |
прилагательное | любой | мн. | им. вин. | любая | - | отцовы | ||
ОМ | существительное | м ср | ед. | твор. | любая | - | столом | |
Й | существительное | 8,9 | м | ед. | им. | любая | - | герой |
существительное | 19,20 | ж | мн. | род. | любая | - | линий | |
существительное | сред | мн. | род. | любая | - | зданий | ||
ЫХ | прилагательное | 1,5,6,9 | любой | мн. | вин. род. | неодушевленный | - | грузовых |
ИЙ | прилагательное | 2,3,4,8 | м | ед. | им. вин. | неодушевленный | - | воинский |
ЕНЫ | глагол | любой | мн. | - | любая | пассив | вручены |
Каждая из словоформ исходной фразы сопоставляется с графой аффиксы с целью определения подходящего аффикса и «отрезания» его от словоформы. В результате образуется основа, которой приписывается некоторая морфологическая информация. Например, словоформе ВОПРОСЫ соответствует аффикс Ы. Его удаление из словоформы дает основу ВОПРОС и два набора морфологической информации. Первый набор связан с частью речи существительное, второй – с частью речи прилагательное. Результирующее множество морфологических типов образуется путем объединения множеств морфологических типов для соответствующих частей речи.
Результат определения морфологического типа и выделения основы для нашего примера показан в таблице 5.2.
Результат первого этапа морфологического анализа из примера
Таблица 5.2
основа | часть речи | морфологические типы |
СТУДЕНТ | существительное | |
РАССМОТР | глагол | |
РАССМОТРЕН | существительное | 1,2,7,13,18 |
РАССМОТРЕН | прилагательное | |
ВОПРОС | существительное | 1,2,7,13,18 |
ВОПРОС | прилагательное | |
МЕЖДУНАРОДН | прилагательное | 1,5,6,9 |
ОТНОШЕНИ | существительное | 8,9,19,20,27 |
ОТНОШЕН | прилагательное | 2,3,4,8 |
Серьезный недостаток полученного результата – двойственное описание основы ВОПРОС и неоднозначность выделения основ для исходных словоформ РАССМОТРЕНЫ и ОТНОШЕНИЙ. Полученная неоднозначность устраняется на втором шаге.
Пусть таблица суффиксов и квазисуффиксов имеет вид таблицы 5.3.
Таблица суффиксов и квазисуффиксов
Таблица 5.3
признак | значение | часть речи | морфологические типы |
суффикс | ЕН | глагол | |
квазисуффикс | С | существительное | 1,6,8,12 |
квазисуффикс | Н | прилагательное | 1,3,6 |
суффикс | ЕНИ | существительное |
Для основы РАССМОТРЕН выбирается суффикс ЕН. Однако части речи не совпадают, поэтому данная основа рассматривается как неверно выделенная. Оставшейся основе РАССМОТР соответствуют суффикс ЕН и квазисуффикс Н. Поскольку суффикс имеет больший приоритет, чем квазисуффикс, принимается суффикс ЕН и соответствующая ему морфологическая информация.
Для основы ВОПРОС выбирается квазисуффикс С. Пересечение этих двух таблиц показывает, что общий морфологический тип – 1, значит, у основы ВОПРОС морфологический тип – 1, а часть речи - существительное. В этом случае с данной основой связывается вся морфологическая информация, соответствующая морфологическому типу 1. Аналогично и для остальных основ.
Тогда результат второго шага выделения основы имеет вид таблицы 5.4:
Результат второго этапа морфологического анализа из примера
Таблица 5.4
гипотетическая. основа | часть речи | род | число | падеж | одушевленность | пассивность | морфологические типы |
СТУДЕНТ | существительное | м ср | ед. | твор. | любая | - | |
РАССМОТРЕН | глагол | любой | мн. | - | любая | пассив | |
ВОПРОС | существительное | м | мн. | им. | любая | - | |
МЕЖДУНАРОДН | прилагательное | любой | мн. | вин. род. | неодушевленный | - | 1,6 |
ОТНОШЕНИ | существительное | ср | мн. | род. | любая | - |
Дата добавления: 2015-02-05; просмотров: 1648;