Понятие и состав лингвистического обеспечения
С самого начала появления информационно-поисковых систем их главной частью считался информационно-поисковый язык (ИПЯ). Повышенное внимание к проблемам разработки ИПЯ, как в теории, так и на практике, особенно характерно для периода 1960–1970-х годов. По данным Н.И.Гендиной пик публикаций по теме ИПЯ в нашей стране пришелся на 1974–1978 годы. В целом для работ этого периода развития ИПС характерно выявление природы ИПЯ через его сопоставление с естественным языком (ЕЯ). Большое внимание уделялось разработке конкретных языков и способов их использования (методик индексирования).
Постепенно наряду с термином ИПЯ стал использоваться термин “лингвистическое обеспечение” (ЛО), обозначающий весь комплекс языковых и логических средств и методов, используемых в ИПС для обеспечения основной задачи информационного поиска – сопоставления содержания документов и запросов. К ним относится собственно ИПЯ, критерий смыслового соответствия (КСС), методики индексирования, методики составления тезаурусов, различные правила, вспомогательные средства создания и ведения ИПЯ и т.п. Приведем два определения.
“Лингвистическое обеспечение – это комплекс средств представления информации в виде данных и интерпретации данных в процессе функционирования информационных систем”.
“Лингвистическое обеспечение – это комплекс мероприятий, направленных на разработку языковых средств АСНТИ, а также сами средства”.
К лингвистическому обеспечению ИПС стали относить и специальные языковые средства поиска в режиме диалога, и языковые средства мультибазового поиска, и средства автоматизации вспомогательных процессов в ИПС, предназначенные для ведения машинных словарей.
Развитие языковых средств систем управления базами данных (языки описания данных, языки манипулирования данными), а также различных языков программирования еще более расширили сферу применения понятия ЛО, не всегда, впрочем, правомерно.
Нередко в понятие “ЛО ИПС” включают всю совокупность языков, которые применяются как для составления программ, так и в процессе функционирования ИПС. В этом случае данный термин становится синонимом для термина “средства общения человека с машиной”. “Под языковыми средствами информационной системы мы будем ... понимать весь комплекс языков и систем знаков (включая и естественный язык), используемых при проектировании АИС, составлении программ и в ходе информационных процессов, реализуемых на ЭВМ как программными средствами, так и пользователями АИС”. В состав языковых средств авторы указанной работы включают языки программирования, информационные языки, языки представления служебной или вспомогательной информации, используемой алгоритмами обработки сообщений, языки описания структур информации, в том числе структур массивов и сообщений, используемых программами обработки, служебные языки сервисных программ. “С точки зрения использования указанных языковых средств в процессах функционирования АИС их можно разделить на средства представления информации и средства доступа к ней. Для человека средствами доступа являются не только информационные языки, но и языки программирования...”. С таким расширительным толкованием ЛО никак нельзя согласиться. У языков программирования и информационных языков совершенно разное назначение. Поэтому вряд ли правомерно говорить о стирании грани между языками этих двух типов. Лингвистические средства информационного поиска описывают предметное содержание документов и запросов и определяют логику поиска, а программные, к которым относят языки программирования, языки описания структур данных и т.п., реализуют эту логику в той или иной вычислительной среде.
Рассмотрим состав и классификацию средств лингвистического обеспечения. Построение классификационной схемы языковых средств представляется важным как с теоретической, так и с практической точки зрения. “Классификация это один из способов логического анализа сложных систем. Расположение явлений по какой-то определенной схеме, выбранной исследователем для решения стоящих перед ним познавательных задач, это взгляд на систему в некотором специальном ракурсе, позволяющий отчетливо увидеть то, что ранее оставалось затушеванным”.
Любая классификация всегда относительна. Вопросы типологии языковых средств рассматриваются во многих работах. Одна и та же совокупность явлений может быть классифицирована по-разному, по разным признакам или критериям. Тем не менее, классификация позволяет сделать цельный взгляд на предмет исследования.
Предлагаем схему, отражающую объем и содержание понятия ЛО в его современном понимании. Итак, в состав лингвистического обеспечения документальной ИПС входят:
1. Собственно информационно-поисковый язык (язык описания содержания документов и запросов).
1.1. Алфавит и микросинтаксис ИПЯ.
1.2. Средства представления плана содержания (семантики):
словари, тезаурусы;
вспомогательные словари (единиц измерений, сокращений и т.п.);
рубрикаторы, классификаторы;
наполнение форматов.
1.3. Средства представления плана выражения:
грамматические средства ИПЯ (указатели связи, указатели роли и т.п.);
структура форматов.
1.4. Средства представления естественно-языковой информации в ИПЯ (правила представления текстов на ЕЯ, проблемы многоязычия, диакритики и т.п.).
2. Средства обеспечения совместимости различных языков:
таблицы соответствия;
таблицы конвертирования;
протоколы.
3. Процедурные средства:
3.1. Методики индексирования.
3.2. Алгоритмы автоматического индексирования.
3.3. Средства поиска:
язык запросов;
средства автоматической адресации запросов к базам данных;
единые командные языки.
4. Критерий смыслового соответствия.
5. Языки структурирования (представления) и метаописания данных.
6. Вспомогательные средства обработки текстов на ЕЯ:
программно-алгоритмические средства морфологического и синтаксического анализа;
средства семантической обработки текстовых данных;
лингвистические средства и алгоритмы автоматической классификации документов;
лингвистические средства и алгоритмы автоматизированного построения поисковых предписаний;
средства автоматизированного обнаружения ошибок;
лингвистические банки данных, машинные словари лексических (слов, словосочетаний) и морфологических единиц ЕЯ (основ, флексий, префиксов, префиксоидов).
7. Средства поддержки лингвистического обеспечения:
процедуры составления машинных словарей;
процедуры ведения машинных словарей;
документация по лингвистическому обеспечению.
Дата добавления: 2015-03-03; просмотров: 1997;