Компьютерная лексикография
Современная лексикография существенно расширила и усилила свой инструментарий компьютерными технологиями создания и эксплуатации словарей. Специальные программы — базы данных, компьютерные картотеки, программы обработки текста — позволяют в автоматическом
Глава 3. Оптимизация эпистемической функции языка
Лексикография 83
режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографических программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари (АС) различных типов, включающие лексикографические базы данных.
Компьютерные программы поддержки лексикографических работ.Работа лексикографа непосредственно связана со словами, примерами их употребления и словарными статьями создаваемого словаря. Традиционная форма фиксации словарных данных — каталожная карточка, в которой указывается описываемое слово, пример употребления, источник примера, автор, а также различная дополнительная информация. Современные компьютерные технологии позволяют упростить процесс сбора и хранения лексикографической информации, используя вместо обычной картотеки базу данных, записи которой представляют собой аналог традиционной каталожной карточки. В отличие от обычной картотеки, записи базы данных дают возможность автоматически сортировать массив по выбранным параметрам, отбирать нужные примеры, объединять их в группы и т. д. Специализированных лексикографических баз данных — имеются в виду специальные программные оболочки — на рынке нет. Однако современные базы данных типа D-Base, ACCESS, FOX-Base, PARADOX вполне подходят для ведения электронных словарных картотек. Приведем пример записи базы данных по современной русской идиоматике, созданной в Институте русского языка РАН, которая поддерживается программой ACCESS.
ЗАПИСЬ 28982 ID {идиома}
у черта на куличках EXAMPLE {пример}
А когда, например, Баранов позвонил Ефиму и сказал, что может угостить свежей телятиной, тот немедленно выскочил из дому, схватил такси и поперся к Баранову к черту на куличкив Беляево-Богородское вовсе не в расчете на отбивную или ростбиф, а приехав, получил на очень короткое время то, ради чего и ехал, — книгу Солженицына «Бодался теленок с дубом».
SOURCE {источник}
Шапка
AUTH {автор}Войнович В.
Лексикографические базы данных фиксируют первичный лексикографический материал, который используется для написания словарных статей словаря.
Еще один важный этап лексикографической работы — поиск примеров на слово и формирование картотеки примеров. В традиционной
технологии сбор примеров производится вручную и отнимает огромное количество времени. Современные компьютерные программы дают возможность выбирать примеры на нужное слово из корпусов текстов, хранящихся в машинном формате на компьютере, в автоматическом режиме. Поиск примеров на употребление слова называется построением конкордансов. Некоторые компьютерные программы построения конкордансов по желанию пользователя могут преобразовывать найденные контексты в записи базы данных. Например, программа DIALEX позволяет получать конкордансы как в традиционной форме (в виде файла для текстового редактора), так и в формате базы данных PARADOX[14].
После подготовки первичного словарного материала — словарной картотеки — непосредственно следует этап составления словарной статьи. Технологическая цепочка словарных работ и здесь не остается без компьютерной поддержки. Новая словарная статья вводится в базу данных, которая становится исходной базой данных создаваемого словаря. Редактирование словарных статей также происходит в базе данных, а не в обычном текстовом файле. Все это существенно сокращает время разработки словаря, поскольку упрощается обработка системы отсылок, в автоматическом режиме происходят сортировки (в том числе алфави-тизация словарных статей), сравнительно легко порождаются различные указатели. Для редактирования словаря можно привлекать компьютерные программы проверки орфографии.
Наконец, последний этап — формирование текста словаря, создание оригинал-макета книги — также существенно облегчается. Технологическая цепочка и здесь не прерывается: существующее программное обеспечение позволяет выдать текстовый материал сразу из базы данных с разметкой под топографематические выделения. Поля записи базы данных трансформируются в автоматическом режиме в зоны словарной статьи с соответствующими шрифтами, кеглями, курсивом, подчеркиваниями и пр.
Ниже на рис. 2 представлены этапы лексикографической работы в традиционном варианте (А) и компьютерная технология создания словаря (Б). Разумеется, в каждом конкретном случае проекты создания словарей могут модифицировать стандартные схемы. Например, в некоторых случаях для сбора корпуса примеров могут использоваться не только корпусы текстов, но и лексикографические базы данных. Так, проект Фразеологического словаря современного русского языка опирается не только на корпус текстов по современному русскому языку (включающий тексты художественной прозы, публицистики, детективной литературы[15]), но и на базу данных по современной идиоматике, включающей в настоящее время около 50 тысяч контекстов употребления
Дата добавления: 2016-09-20; просмотров: 2014;