Синтаксическая разметка
Морфологическая разметка
Это основной тип разметки: во-первых, большинство крупных корпусов являются морфологически размеченными, во-вторых, морфологический анализ является основой для дальнейших форм анализа – синтаксического и семантического, в-третьих, успехи в компьютерной морфологии позволяют автоматически с большой степенью правильности размечать корпуса больших размеров.
Структура морфологической информации в НКРЯ
Морфологическая информация состоит из четырех групп помет:
− лексема, которой принадлежит словоформа (начальная форма).
− грамматические признаки лексемы (напр., род для существительного, переходность для глагола).
− грамматические признаки словоформы (напр., падеж для существительного, число для глагола).
− информация о нестандартности грамматической формы, орфографических искажениях и т.п.
Напр.: <w><ana lex='академия' gr='S,f,inan=pl,gen=anom'></ana>акад`емиев</w>
Примеры используемых в НКРЯ грамматических помет
Части речи (16)
S — существительное (яблоня, лошадь, корпус, вечность)
A — прилагательное (коричневый, таинственный, морской)
NUM — числительное (четыре, десять, много)
A-NUM — числительное-прилагательное (один, седьмой, восьмидесятый)
V — глагол (пользоваться, обрабатывать)
ADV — наречие (сгоряча, очень)
PRAEDIC — предикатив (жаль, хорошо, пора)
Значения грамматических категорий
Род:
m — мужской род (работник, стол)
f — женский род (работница, табуретка)
m-f — «общий род» (задира, пьяница)
n — средний род (животное, озеро)
Одушевленность:
anim — одушевленность (человек, ангел, утопленник)
inan — неодушевленность (рука, облако, культура)
Число:
sg — единственное число (яблоко, гордость)
pl — множественное число (яблоки, ножницы, детишки)
Падеж:
nom — именительный падеж (голова, сын, степь, сани, который)
gen — родительный падеж (головы, сына, степи, саней, которого)
dat — дательный падеж (голове, сыну, степи, саням, которому)
Синтаксическая разметка
Этот вид разметки описывает синтаксические связи между лексическими единицами и различные синтаксические конструкции. Синтаксическая разметка является результатом синтаксического анализа, выполняемого на основе данных морфологического анализа.
В НКРЯ синтаксическая разметка представлена в Синтаксическом корпусе.
Синтаксическая структура предложения представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Каждое слово предложения, кроме одного (называемого вершиной предложения), зависит от какого-то слова по одному из синтаксических отношений. Всего выделяется около 70 отношений.
Синтаксические отношения подразделяются на четыре группы: 1) актантные, 2) атрибутивные, 3) сочинительные и 4) служебные.
<== предыдущая лекция | | | следующая лекция ==> |
Наследование – переход имущества умершего (наследодателя) другим лицам (наследникам). | | | Загальні поняття про управлінські рішення |
Дата добавления: 2016-10-17; просмотров: 2349;