Словарь
Словарь является основной частью всех информационно-поисковых языков. В качестве лексических единиц в дескрипторных ИПЯ выступают дескрипторы – имена понятий или классов понятий, которые явно перечисляются в дескрипторном словаре. В обычном понимании – это слова (или словосочетания), выбранные в качестве представителей классов условной эквивалентности – групп синонимичных слов и словосочетаний. Как правило, это существительные или номинативные выражения. Связь номинации с понятиями давно осознана в языкознании. То же понимание утвердилось и в информатике: “Номинативная группа как наиболее общая речевая форма представления понятия в тексте рассматривается … как фундаментальное для методов автоматической обработки текстов явление”. “Объектный характер назывных слов роднит их с понятиями. Лексические значения, как и понятия, это своего рода, умственные “концентраторы”, сгустки человеческих знаний об определенных фрагментах и сторонах окружающей нас действительности”.
Дескрипторный словарь представляет собой нормативный словарь, в котором в алфавитном порядке приведены все важнейшие ключевые слова данной предметной области с соответствующими пометами. Если в качестве имен понятий выбираются слова естественного языка, то существуют специальные способы для устранения полисемии и омонимии слов. Например, в системах с ручным (интеллектуальным) индексированием для этого используются специальные пометы: нос (орган обоняния) – нос (передняя часть судна, самолета); линь (рыба) – линь (мор. канат). Можно просто перенумеровать омонимы, оговорив в словаре их значения: нос1 – нос2; линь1 – линь2.
Дескрипторный словарь используется как инструмент лексического контроля при индексировании документов и запросов. Термин “лексический контроль” (ЛК) имеет синоним “словарный контроль”, так как для семантического нормирования ЛЕ ИПЯ используется словарь индексирования, или дескрипторный словарь, в котором в явном виде перечислены все важнейшие ключевые слова и дескрипторы, объединенные в классы условной эквивалентности. Лексический контроль – это совокупность мер, принимаемых при координатном индексировании с целью сокращения до минимума отрицательных последствий неоднозначного и неединообразного употребления слов ЕЯ.
Суть лексического контроля, осуществляемого с помощью словаря индексирования, в основном сводится к контролю синонимии и разрешению омонимии.
Кратко коснемся каждой из составляющих ЛК.
1) Контроль синонимии является главной функцией ЛК в ИПС. Он заключается в том, что все синонимы текста в ПОД и ПОЗ представляются одной и той же лексической единицей – дескриптором. В число синонимов включаются:
– полные синонимы (радар – радиолокатор, ЭВМ – компьютер);
– фонетические (графические) варианты слов ( секстан – секстант, center – centre, labor – labour, Chekhov – Tchekhov);
– аббревиатуры (ИПС – информационно-поисковая система);
– слова, близкие по смыслу (отсечка – отсечение, магнитный диск – магнитная память, ОРЗ – простуда);
– слова, совпадающие по смыслу в одном из значений (компьютер – машина, статья – работа, перепись – перезапись).
Иногда к синонимам относят и антонимы (“квазисинонимы”) (жесткость – мягкость, фокусировка – дефокусировка).
Иногда в один класс условной эквивалентности сводятся не только грамматические формы одной лексемы, но и разноосновные и относящиеся даже к разным частям речи лексемы, объединяемые общим лексическим значением, например: трелевка – трелевочный, сверло – сверление. Л.В.Сахарный назвал такие единицы “гиперлексемами”.
2) ЛК призван также обеспечить различение омонимов (омографов) и многозначных слов. Это достигается присвоением им различных цифровых кодов (в первых дескрипторных ИПЯ, лексика которых записывалась с помощью цифрового алфавита) или системой помет, например:
конденсаторы (для пара) – конденсаторы (электрические), литье (предмет) – литье (процесс), меркурий (металл) – Меркурий (планета).
В ряде исследований, однако, показано, что неразличение омонимов не ведет к заметному информационному шуму . Это объясняется тем, что совпадение (ложное) одного термина запроса с омонимичным ему термином в документе не влияет сколь-либо значительно на коэффициент релевантности при количественном критерии смыслового соответствия и недостаточно, как правило, для присвоения логическому выражению запроса значения «истина», так как другие термины из конъюнктивной формулы запроса скорее всего в данном документе будут отсутствовать.
Между лексическими единицами ИПЯ могут быть установлены различные отношения. Обычно их включают в грамматику. Однако те из них, которые не зависят от контекста и фиксируются в словаре, могут рассматриваться как семантические характеристики лексических единиц и относиться к словарю. Такие отношения называют базовыми, или парадигматическими, или аналитическими. Дескрипторный словарь (нормативный словарь индексирования) с зафиксированными в нем парадигматическими отношениями (подробнее см. следующий раздел – «Грамматика ИПЯ») называется информационно-поисковым тезаурусом (ИПТ), или просто тезаурусом. Целью создания ИПТ является повышение показателей качества поиска информации.
“Информационно-поисковый тезаурус – контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов”.
В лексическом составе ИПТ выделяют дескрипторы и аскрипторы. Дескриптор – это лексическая единица ИПТ, предназначенная для использования в поисковых образах документов и/или запросов. Аскриптор (недескриптор) – лексическая единица ИПТ, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.
Форма представления тезауруса определяется требованиями удобства пользования. Она должна обеспечивать нахождение нужной по смыслу ЛЕ и всех ЛЕ, с ней связанных.
Чаще всего ИПТ имеет две части.
Словарная часть (собственно тезаурус), представляющая собой алфавитный список дескрипторов вместе с их словарными статьями (гнездами).
Словарная статья обычно содержит:
заглавный дескриптор (прописными буквами);
ключевые слова или словосочетания, входящие в гнездо данного дескриптора (условные синонимы) (строчными буквами);
“вышестоящие” дескрипторы (находящиеся с данным в отношении “род–вид”, “часть–целое”);
“нижестоящие” дескрипторы (находящиеся с заглавным дескриптором в отношении “вид–род”, “целое–часть");
ассоциативные (ассоциированные) дескрипторы (связанные с данным другими разнообразными отношениями, как-то: причина–следствие, сырье–продукт, процесс–объект, процесс–субъект, свойство–носитель свойства, функциональное сходство).
Указанные подмножества обычно приводятся с пометами, чаще всего:
«с» – синонимы,
«в» – выше,
«н» – ниже
«а» – ассоциация.
Также встречаются и другие пометы и знаки:
«см.» – смотри (отсылка к соответствующему заглавному дескриптору);
«исп к» – использует комбинацию (в случаях замены ключевого слова сочетанием двух или более дескрипторов);
«исп а» – использует альтернативу (в случае многозначного ключевого слова, заменяемого одним из двух или более дескрипторов);
«ср» – сравни (для многозначных слов внутри дескрипторного гнезда, которые могут заменяться не только данным дескриптором);
( ) – в скобках уточняется лексическое значение дескриптора (для омонимов) или ограничение области использования.
2. Указатели различных видов, облегчающие пользование тезаурусом (алфавитный указатель всех ключевых слов, пермутационный указатель для элементов словосочетаний, частотный указатель и др.).
Пример дескрипторной статьи из Тезауруса по информатике:
ДОКУМЕНТАЛЬНЫЕ ИПС
с документальные информационно-поисковые системы
ср документально-фактографические ИПС
в ИПС
н БИБЛИОГРАФИЧЕСКИЕ ИПС
ДОКУМЕНТАЛЬНЫЕ АИПС
а ДОКУМЕНТАЛЬНАЯ ИНФОРМАЦИЯ
ДОКУМЕНТАЛЬНЫЙ ПОИСК
Еще один пример из двуязычного Тезауруса по сохранности документов:
***************************
Принципы построения тезауруса широко описаны в литературе и могут быть сведены к следующим:
1) ни одно редко встречающееся понятие не надо включать в тезаурус;
2) служебные (незначащие) слова в тезаурус не включаются;
3) термины слишком общего значения с высокой частотой встречаемости должны быть исключены из словаря;
4) у неоднозначных терминов должны быть закодированы только те их значения, в которых они встречаются в фонде обрабатываемых документов.
Помимо лексико-семантической нормализации, в ИПС всех типов необходима морфологическая нормализация лексических единиц текста (ИПЯ) – приведение всех словоформ одной и той же лексической единицы к некоторому стандартному, каноническому виду. В системах с ручным индексированием эта задача решается индексатором на уровне составления ПОД и ПОЗ. В остальных случаях разрабатываются автоматизированные методы учета словоизменения (см. об этом в разделе 2.4 «Языки запросов»).
Дата добавления: 2015-03-03; просмотров: 1863;