ТЕКСТОЛОГИЧЕСКИЕ МЕТОДЫ

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний.

Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вторичной структуре (смысловой структуре или макроструктуре текста), настраиваемой над естественным текстом.

При этом можно выделить две такие смысловые структуры: M1 смысл, который пытался заложить автор, это его модель мира, и М2 смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 17.13) в процессе интерпретации I. При этом Т - это словесное одеяние М1, т.е. результат вербализации V.

Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М1 и M2, из-за того, что М1 образуется за счет совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно и М2 образуется в процессе интерпретации текста Т за счет привлечения всей совокупности научного и человеческого багажа читателя.

Рис. 17.13. Извлечение знаний из текстов

Встает задача выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня о том, что понимание всегда относительно. Рассмотрим подробнее, какие источники питают модель М1 и создают текст Т. указаны два компонента любого научного текста. Это первичный материал наблюдений и система научных понятий в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора, результат его личного опыта, а также некоторые "общие места", или "вода". Кроме того, любой научный текст содержит заимствования из других источников (статей, монографий) и.т.д.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое "погружен" текст.

Основными моментами понимания текста являются:

· выдвижение предварительной гипотезы о смысле всего текста (предугадывание);

· определение значения непонятных слов (т.е. специальной терминологии);

· возникновение общей гипотезы о содержании текста (о знаниях);

· уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям);

· формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний;

· корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому);

· принятие основной гипотезы, т.е. формирование М2.

Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания.

Центральными моментами процесса I являются шаги формирования смысловой структуры или выделения "опорных", или ключевых, слов, а также заключительное охватывание "смысловых вех" в единую семантическую структуру. В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т.д.) или их сочетание. Существует гипотеза лингвостатистики о том, что наиболее употребляемые слова являются наиболее важными с точки зрения содержания текста, т.е. отражают его тематическую структуру.

Подготовкой к прочтению специальных текстов является выбор совместно с экспертами некоторого "базового" списка литературы, который постепенно введет аналитика в предметную область. В этом списке могут быть учебники для начинающих, главы и фрагменты из монографий, популярные издания. Только после ознакомления с "базовым" списком целесообразно приступать к чтению специальных текстов.

Наиболее простым методом является анализ учебников, в которых логика изложения обычно соответствует логике предмета, и поэтому макроструктура такого текста будет, наверное, более значима, чем структура текста какой-нибудь специальной статьи. Анализ методик затруднен как раз сжатостью изложения и практическим отсутствием комментариев, т.е. фоновых знаний, облегчающих понимание для неспециалистов. Поэтому можно рекомендовать для практической работы комбинацию перечисленных методов.

В заключение предложим одну из возможных практических методик анализа текстов с целью извлечения и структурирования знаний.

· Составление "базового" списка литературы для ознакомления с предметной областью и чтения по списку.

· Выбор текста для извлечения знаний.

· Первое знакомство с текстом (беглое прочтение). Для определения значения незнакомых слов - консультации со специалистами или привлечение справочной литературы.

· Формирование первой гипотезы о структуре текста.

· Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение "смысловых вех" (компрессия текста).

· Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или "сжатого" текста (реферата).

· Формирование поля знаний на основании структуры текста.








Дата добавления: 2019-10-16; просмотров: 443;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.004 сек.