Компьютерная лексикография

Современная лексикография существенно расширила и усилила свой инструментарий компьютерными технологиями создания и эксплуатации словарей. Специальные программы — базы данных, компьютерные кар­тотеки, программы обработки текста — позволяют в автоматическом


Глава 3. Оптимизация эпистемической функции языка


Лексикография 83


 


режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографи­ческих программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари (АС) различных типов, включающие лексикографические базы данных.

Компьютерные программы поддержки лексикографических работ.Ра­бота лексикографа непосредственно связана со словами, примерами их употребления и словарными статьями создаваемого словаря. Традицион­ная форма фиксации словарных данных — каталожная карточка, в ко­торой указывается описываемое слово, пример употребления, источник примера, автор, а также различная дополнительная информация. Совре­менные компьютерные технологии позволяют упростить процесс сбора и хранения лексикографической информации, используя вместо обычной картотеки базу данных, записи которой представляют собой аналог тради­ционной каталожной карточки. В отличие от обычной картотеки, записи базы данных дают возможность автоматически сортировать массив по вы­бранным параметрам, отбирать нужные примеры, объединять их в группы и т. д. Специализированных лексикографических баз данных — имеются в виду специальные программные оболочки — на рынке нет. Однако современные базы данных типа D-Base, ACCESS, FOX-Base, PARADOX вполне подходят для ведения электронных словарных картотек. Приве­дем пример записи базы данных по современной русской идиоматике, созданной в Институте русского языка РАН, которая поддерживается программой ACCESS.

ЗАПИСЬ 28982 ID {идиома}

у черта на куличках EXAMPLE {пример}

А когда, например, Баранов позвонил Ефиму и сказал, что может угостить свежей телятиной, тот немедленно выскочил из дому, схватил такси и поперся к Баранову к черту на куличкив Беляево-Богородское вовсе не в расчете на отбивную или ростбиф, а приехав, получил на очень короткое время то, ради чего и ехал, — книгу Солженицына «Бодался теленок с дубом».

SOURCE {источник}

Шапка

AUTH {автор}Войнович В.

Лексикографические базы данных фиксируют первичный лексико­графический материал, который используется для написания словарных статей словаря.

Еще один важный этап лексикографической работы — поиск при­меров на слово и формирование картотеки примеров. В традиционной


технологии сбор примеров производится вручную и отнимает огром­ное количество времени. Современные компьютерные программы дают возможность выбирать примеры на нужное слово из корпусов текстов, хранящихся в машинном формате на компьютере, в автоматическом ре­жиме. Поиск примеров на употребление слова называется построением конкордансов. Некоторые компьютерные программы построения кон­кордансов по желанию пользователя могут преобразовывать найденные контексты в записи базы данных. Например, программа DIALEX позво­ляет получать конкордансы как в традиционной форме (в виде файла для текстового редактора), так и в формате базы данных PARADOX[14].

После подготовки первичного словарного материала — словарной картотеки — непосредственно следует этап составления словарной ста­тьи. Технологическая цепочка словарных работ и здесь не остается без компьютерной поддержки. Новая словарная статья вводится в базу дан­ных, которая становится исходной базой данных создаваемого слова­ря. Редактирование словарных статей также происходит в базе данных, а не в обычном текстовом файле. Все это существенно сокращает время разработки словаря, поскольку упрощается обработка системы отсылок, в автоматическом режиме происходят сортировки (в том числе алфави-тизация словарных статей), сравнительно легко порождаются различные указатели. Для редактирования словаря можно привлекать компьютерные программы проверки орфографии.

Наконец, последний этап — формирование текста словаря, создание оригинал-макета книги — также существенно облегчается. Технологи­ческая цепочка и здесь не прерывается: существующее программное обеспечение позволяет выдать текстовый материал сразу из базы дан­ных с разметкой под топографематические выделения. Поля записи базы данных трансформируются в автоматическом режиме в зоны словарной статьи с соответствующими шрифтами, кеглями, курсивом, подчеркива­ниями и пр.

Ниже на рис. 2 представлены этапы лексикографической работы в традиционном варианте (А) и компьютерная технология создания словаря (Б). Разумеется, в каждом конкретном случае проекты созда­ния словарей могут модифицировать стандартные схемы. Например, в некоторых случаях для сбора корпуса примеров могут использоваться не только корпусы текстов, но и лексикографические базы данных. Так, проект Фразеологического словаря современного русского языка опи­рается не только на корпус текстов по современному русскому языку (включающий тексты художественной прозы, публицистики, детектив­ной литературы[15]), но и на базу данных по современной идиоматике, включающей в настоящее время около 50 тысяч контекстов употребления









Дата добавления: 2016-09-20; просмотров: 2008;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.003 сек.