Текстологические методы
Применяются для хорошо структурированных и хорошо документированных предметных областей. В этом случае правила управления на производстве «хорошо» описаны и их достаточно для проведения процедуры извлечения знаний с целью формирования системы знаний у инженера по знаниям или формирования электронного хранилища знаний.
Задача извлечения знаний из текстов – это задача понимания и выделения смысла текста. Сам текст – это лишь проводник смысла, а замысел и знания автора лежат во вторичной структуре (смысловой или макроструктуре), настраиваемой над естественным текстом. При этом выделяются две такие структуры:
1) смысл, который пытался вложить автор, - это его модель мира, его знания;
2) смысл, который постигает читатель текста (инженер по знаниям) на основании собственных представлений о мире (своих знаний).
В силу того, что знания автора текста и читателя принципиально не совпадают, возникает задача достижения максимальной адекватности обоих смыслов.
Компоненты любого научного текста включают: первичный материал наблюдений; систему научных понятий; субъективные взгляды автора и результат его личного опыта; общие места; заимствования из других источников.
При извлечении знаний инженеру по знаниям приходится выделять из текста эти компоненты и определять, какие из них наиболее значимы. Сложность понимания научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, т.е. в окружении, в которое он погружен. Различают микро- и макроконтекст. Микроконтекст – это ближайшее окружение текста: абзац для предложения, глава – для абзаца и т.д. Макроконтекст – вся система знаний, связанная с предметной областью (т.е. это знания об особенностях и свойствах, явно не указанных в тексте).
Центральное звено в извлечении знаний – понимание текста. Оно происходит в несколько этапов:
1) выдвижение предварительной гипотезы о смысле всего текста (предугадывание);
2) определение значений непонятных слов (специальной терминологии);
3) возникновение общей гипотезы о содержании текста – о знаниях;
4) уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям) – дедуктивная составляющая;
5) формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний;
6) корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому) – индуктивная составляющая;
7) принятие основной гипотезы, т.е. формирование смысла текста инженером по знаниям.
Центральными этапами являются 5 и 7, когда формируется смысловая структура текста за счет выделения опорных ключевых слов и их связывания в единую семантическую структуру.
При анализе текста важно выявление внутренних связей между отдельными элементами текста и понятиями. Выделяют два вида связей в тексте:
§ эксплицитные (явные), которые выражаются во внешнем дроблении текста. Делят текст на параграфы с помощью перечисления компонентов, вводных слов типа «во-первых», «однако» и т.д.;
§ имплицитные (скрытые, внутренние). Вызывают основное затруднение при понимании.
При извлечении знаний в качестве текстологических источников информации выступают:
1) учебники. Наиболее доступные для понимания источники, поскольку логика изложения обычно соответствует логике предмета, и макроструктура такого текста будет более значима, чем структура текста специальной статьи, Эффективны при предварительном ознакомлении с предметной областью и при более углубленном понимании других источников текстологических знаний;
2) специальная и научная литература(статьи, монографии). Предполагают предварительную специальную подготовку, потому могут использоваться на последующих этапах извлечения знаний;
3) методики, инструкции. Характеризуются сжатостью изложения и практическим отсутствием комментариев, т.е. фоновых знаний, облегчающих понимание для неспециалиста. Включают большое количество имплицитной информации, потому могут эффективно использоваться на последующих этапах извлечения знаний.
Различают автоматизированные и неавтоматизированные методы извлечения смысла из текста.
Неавтоматизированные методы предполагают привлечение инженера по знаниям для анализа текста и построения модели предметной области. Для этого нужна подготовка инженера по знаниям, поскольку на процесс понимания влияют следующие факторы: из понимаемого текста - наблюдения автора, научные понятия, субъективные взгляды автора, заимствования; предварительные знания инженера по знаниям о предметной области; его общенаучная эрудиция; личный опыт.
Автоматизированные методы наиболее привлекательны, поскольку объемы текстовой информации обширны и требуют больших трудозатрат. Однако извлечение глубинной семантики, которое характерно для процесса понимания человеком, сопряжено в настоящий момент развития информатики с такими сложностями реализации, что эффективность результата сомнительна. Это объясняется и проблематичностью моделирования любого естественного языка (по формальным языкам см. их формальное представление и анализ в [32]), и требованием наличия модели внешнего мира при понимании текста, что упирается в задачи инженерии знаний.
В то же время получили развитие методы извлечения поверхностной семантики, которые находят применение в таких практических задачах, как автоматическое реферирование, тематическая классификация и кластеризация текстов, смысловой поиск и т.п. Эти методы используют статистическую информацию об отдельных единицах текста (словах, выражениях и т.д.), которая, по мнению разработчиков, адекватно отражает содержание текста в целом.
Автоматизированное извлечение знаний из текстологических источников является задачей, решение которой входит в такой раздел информационных технологий как текстовые информационные технологии и требует отдельного рассмотрения, а потому в настоящем учебном пособии не приводится (частично вопросы текстовых информационных технологий рассматриваются в [31]).
Недостатком коммуникативных методов извлечения знаний является объективная сложность, связанная с общением различных людей: это и нежелание экспертов делиться своими знаниями, и неумение это сделать, и многозначность естественного языка, на котором ведется общение, и сложности психологического характера, связанные с несовместимостью и антипатией собеседников. Однако на практике только коммуникативные методы позволяют наиболее полно и точно, в конечном итоге, представить знания о предметной области.
Преимущества текстологических методов заключаются в отсутствии необходимости для инженера по знаниям в общении с экспертом. Современные средства коммуникации делают доступной различную обширную информацию, а активные исследования в области автоматизированного извлечения знаний из текстов позволяют надеяться на то, что в ближайшем будущем эти вопросы будут так или иначе решены. Однако уповать только на текстологические источники знаний принципиально неверно, поскольку лишь эксперты обладают уникальным опытом, интуицией, наработанной годами профессионального труда, которые принципиально не могут быть представлены в текстовом виде. Поэтому на практике требуется разумное совмещение обоих подходов к извлечению знаний.
Дата добавления: 2015-02-05; просмотров: 1005;