Интеллектуальный анализ данных. Управление знаниями
Информационная составляющая играет важнейшую роль в эффективном управлении бизнесом, поэтому способность предприятий обеспечивать своих сотрудников всем необходимым для принятия взвешенных решений имеет огромное значение. С середины 90-х годов прошлого века стремительно растет интерес компаний к программным продуктам, которые позволяют аналитикам работать с большими объемами данных, накопленными в ERP, CRM системах и хранилищах данных, и извлекать из них полезную информацию. Следствием этого стало рождение новых информационных технологий и инструментов, обеспечивающих безопасный доступ к источникам корпоративных данных и обладающих развитыми возможностями консолидации, анализа, представления данных и распространения готовых аналитических документов внутри организации и за ее пределами: витрин данных, обработки произвольных запросов (Ad-hoc query), выпуска отчетов (Reporting), инструментов OLAP (On-Line Analytical Processing), интеллектуального анализа данных (Data Mining), поиска знаний в БД (KDD – Knowledge Discovery in Databases) и т.д.
Под «анализом данных» понимают действия, направленные на извлечение из них информации об исследуемом объекте и на получение по имеющимся данным новых данных.
Интеллектуальный анализ данных (ИАД) – общий термин для обозначения анализа данных с активным использованием математических методов и алгоритмов (методы оптимизации, генетические алгоритмы, распознавание образов, статистические методы, Data Mining и т.д.), использующих результаты применения методов визуального представления данных.
В общем случае процесс ИАД состоит из трех стадий:
1) выявление закономерностей (свободный поиск);
2) использование выявленных закономерностей для предсказания неизвестных значений (прогнозирование);
3) анализ исключений для выявления и толкования аномалий в найденных закономерностях.
Иногда выделяют промежуточную стадию проверки достоверности найденных закономерностей (стадия валидации) между их нахождением и использованием.
Все методы ИАД по принципу работы с исходными данными подразделяются на две группы:
Методы рассуждений на основе анализа прецедентов – исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогнозирования и/или анализа исключений. Недостатком этой группы методов является сложность их использования на больших объемах данных.
Методы выявления и использования формализованных закономерностей, требующие извлечения информации из первичных данных и преобразования ее в некоторые формальные конструкции, вид которых зависит от конкретного метода.
В таблице 6.1 приведены примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе.
Таблица 6.1 – Примеры применение методов ИАД в финансах и маркетинге
Приложение (организация) | Описание |
FALCON (HNC Software, Inc.) | Инструментальное средство для оперативного выявления злоупотреблений с кредитными карточками; более 100 организаций-пользователей отмечают сокращение числа нарушений на 20-30%. |
Классификатор дебиторских счетов (Internal Revenue Service) | Выявление счетов потенциально платежеспособных дебиторов на основе анализа больших объемов архивных данных по уплате налогов. |
Повышение качества архивной финансовой информации (Lockheed) | Выявление закономерностей (в виде правил вывода) в архивных финансовых данных для использования в моделях прогнозирования, системах поддержки принятия решений по инвестированию и т.д. |
Верификация данных по курсам валют (Reuters) | Система выявления ошибок в оперативно поступающих данных по курсам валют. С помощью нейронных сетей и индуктивного вывода правил строятся приблизительные прогнозы, которые сравниваются с поступающими данными. Большие отклонения рассматриваются как возможные ошибки. |
Прогнозирование невыплат в сделках с недвижимостью (Leeds) | Анализ архивных данных по сделкам с недвижимостью и выявление паттернов, соответствующих проблемным сделкам, заканчивающимся невыплатами. Выявленные закономерности используются для оценки риска при заключении новых сделок. |
Маркетинговые исследования (Dickinson Direct) | Определение характеристик типичных покупателей продукции компании для выявления новых потенциальных клиентов (профилирование клиентов). |
Маркетинговые исследования (Reader's Digest Canada) | Выявление основных сегментов рынка и наиболее благоприятных подмножеств, а также исследование зависимостей между основными показателями и характеристиками сегментов. |
Установка лотерейных автоматов (Automated Wagering, Inc.) | Объединение методов ИАД с географическим анализом для определения наилучших мест для установки лотерейных автоматов в штате Флорида. |
Выявление потенциальных покупателей автомобильных стерео систем (Washington Auto Audio, Inc.) | Анализ демографической базы данных, содержащей информацию о 14000 реальных и потенциальных клиентов, позволил за 90 секунд получить 3 довольно надежных индикатора для прогноза спроса на продукцию и услуги компании. Аналогичные результаты были получены в результате традиционного исследования, выполненного одной из консалтинговых компаний, причем это исследование обошлось фирме на порядок дороже, чем автоматизированная система интеллектуального анализа данных. |
Data Mining (DM)– это технология обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Алгоритмы, используемые в Data Mining, требуют большого количества вычислений, что ранее являлось сдерживающим фактором широкого практического применения этих методов, однако рост производительности современных процессоров снял остроту этой проблемы.
Задачи, решаемые методами DM:
1. Классификация – отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
2. Прогнозирование.
3. Кластеризация – группировка объектов на основе данных, описывающих сущность этих объектов. Объекты внутри кластера должны обладать общими чертами и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
4. Ассоциация – выявление закономерностей между связанными событиями.
5. Последовательные шаблоны – установление закономерностей между связанными во времени событиями.
6. Анализ отклонений – выявление наиболее нехарактерных шаблонов.
Решение большинства задач бизнес-анализа сводится к той или иной задаче Data Mining. Например, оценка рисков – решение задачи классификации, сегментация рынка – кластеризации, стимулирование спроса – ассоциации.
Технология Data Mining развивалась и развивается на стыке статистики, теории информации, машинного обучения, теории баз данных. Наибольшее распространение получили следующие методы Data Mining: нейронные сети, деревья решений, алгоритмы кластеризации, алгоритмы обнаружения ассоциативных связей между событиями и т.д.
Деревья решений представляют собой иерархическую древовидную структуру классифицирующих правил типа «если-то». Для отнесения некоторого объекта или ситуации к какому-либо классу следует ответить на вопросы, имеющие форму «значение параметра А больше Х», и расположенные в узлах дерева. При положительном ответе осуществляется переход к правому узлу следующего уровня дерева, отрицательном – к левому узлу
Если построенное дерево состоит из неоправданно большого числа ветвей, то оно не будет обеспечивать получение статистически обоснованного ответа. Кроме того, деревья решений выдают полезные результаты только в случае независимости признаков.
В настоящее время деревья решений применяются при решении следующих задач:
описание данных, т.к. они позволяют хранить информацию о данных в компактной форме;
классификация, т.е. отнесение объектов к одному из заранее известных классов;
регрессия, т.е. определение зависимости целевой переменной, принимающей непрерывные значения, от независимых (входных) переменных.
Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных «если-то» правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных скрытых знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются.
Главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, WizWhy), либо строят деревья решений (алгоритмы CART, CHAID, ID3, See5, Sipina и др.), имеющие принципиальные ограничения эффективности поиска правил «если-то».
Программное обеспечение для реализации технологий Data Mining: Poly Analyst, Scenario, 4 Thought, MineSet.
Knowledge Discovery in Databases (KDD) следующих этапов:
Подготовка исходного набора данных – создание набора данных из различных источников, для чего должен обеспечиваться доступ к источникам данных, в том числе, к хранилищам данных.
Предобработка данных – удаление пропусков, искажений, аномальных значений и т.д., дополнение данных некоторой априорной информацией. Данные должны быть качественны и корректны с точки зрения используемого метода DM.
Трансформация, нормализация данных – приведение информации к пригодному для последующего анализа виду.
Data Mining – применение различных алгоритмов нахождения знаний.
Постобработка данных – интерпретация результатов и применение полученных знаний в бизнес-приложениях.
Knowledge Discovery in Databases определяет последовательность действий, необходимую для получения знаний, а не набор методов обработки или алгоритмов анализа.
Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки.
Статические информационно-аналитические системы, создаваемые для непосредственного использования лицами, принимающими решения, называются в литературе информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они содержат в себе предопределенные множества запросов, достаточны повседневного обзора. Однако, они неспособны обеспечить ответы на все вопросы, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов.
Динамические системы поддержки принятия решений (СППР) ориентированы на обработку нерегламентированных (ad hoc) запросов аналитиков к данным. Работа аналитиков с этими системами заключается в интерактивном формировании запросов и изучения их результатов.
Поддержка принятия управленческих решений на основе накопленных данных может выполняться в следующих областях:
Детализированные данные – поиск данных;
Агрегированные показатели – формирование комплексного взгляда на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ;
Закономерности – интеллектуальная обработка методами интеллектуального анализа данных, главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие процессов.
Эволюцию BI-систем можно условно разделить на 3 этапа: системы сбора информации и подготовки регламентированной отчетности (до 90-х годов прошлого столетия), инструменты многомерного анализа на базе технологии оперативной аналитической обработки (OLAP) и создания нерегламентированной отчетности (до 2005 г.), BI-системы с акцентом на развитие прикладных способов аналитики и поиск скрытой информации.
Архитектура BI-системы представлена на рис. 6.12. BI-инструменты включают корпоративные BI-наборы (Enterprise BI Suites, EBIS), предназначенные для генерации запросов и отчетов, и BI-платформы, представляющие собой набор инструментов для создания, внедрения, поддержки и сопровождения BI-приложений. BI-приложения содержат встроенные BI-инструменты (OLAP, генераторы запросов и отчетов, средства моделирования, статистического анализа, визуализации и Data Mining).
Рисунок– Архитектура Business Intelligence
По оценкам агентства IDC рынок Business Intelligenceсостоит из 5 секторов:
1. OLAP-продукты;
2. Инструменты добычи данных;
3. Средства построения Хранилищ и Витрин данных (Data Warehousing);
4. Управленческие информационные системы и приложения;
5. Инструменты конечного пользователя для выполнения запросов и построения отчетов.
Классификация BI-систем базируется на методе функциональных задач, где программные продукты каждого класса выполняют определенный набор функций или операций с использованием специальных технологий (приложение А). Как правило, функции BI включают поддержку принятия решений, запросы и отчетность, аналитическую обработку online, статистический анализ, прогнозирование и количественный анализ.
В настоящее время среди лидеров корпоративных BI-платформ можно выделить MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute и другие (в приложении Б приведен сравнительный анализ некоторых функциональных возможностей BI-систем).
В настоящее время намечается интеграция BI-поставщиков и лидеров ERP (Oracle-Hyperion, SAP-Business Objects-Cryslal), что говорит о растущем потенциале и адекватности BI-систем. Использование BI-систем позволит значительно снизить стоимость сопровождения и настройки на интеграцию с приложениями, подбор сценариев и обучение пользователей. BI-возможности и преимущества SAP обеспечивают использование качественных и количественных данных при выборе варианта решения, комбинацию внешних данных и совместных сценариев, что представляет собой новое поколение средств управления предприятием и бизнес-средой; бизнес-аналитика дает возможность оптимизировать оперативную производительность, прогнозирование и бизнес-планирование.
Желание заказчиков отслеживать и финансовые, и операционные показатели требует, чтобы BI-системы могли одновременно обращаться к базам данных автоматизированных систем, отдельных бэк-офисных модулей, CRM-приложений и т.д. Обработка гетерогенных источников данных не возможна без применения сложных технологий интеграции на основе сервисно-ориентированной архитектуры.
Сектор BI-систем на белорусском рынке представлен слабо. В частности, EPAM представляет Hyperion® System™ 9, которая объединяет платформу Business Intelligence с финансовыми приложениями в одну модульную систему, которая легко адаптируется под конкретные требования бизнеса. Комплекс Hyperion® System1 M 9 внедряется на БМЗ и в концерне «Белнефтехим».
Фирма ТопСофт представляет модуль Галактика Business Intelligence – комплекс приложений для поддержки принятия решений в сбытовой деятельности. На данный момент Галактика ВI-Сбыт внедрена в РБ в компаниях «British-American Tobacco» и «МАВ» (производство красок).
Однако потребности белорусского рынка в BI-системах растут, основными потенциальными потребителями BI-систем являются телекоммуникационные компании, которые испытывают потребность в глубоком анализе базы клиентов, для них предлагаются пакеты Oracle Marketing analyst из Oracle BI Suite; банки, нуждающиеся в средствах аналитики услуг по кредитованию предприятий и частных лиц, могут использовать BI-системы собственной разработки или готовые специализированные приложения; промышленные предприятия и сфера торговли – аналитические программные продукты необходимы для построения управленческой отчетности на системах хранения и консолидации данных, например Cognos BI, Business Object; государственные управленческие структуры, крупные компании и холдинги, требующие полнофункциональных решений ВI, для них подходят Cognos, Oracle, Business Objects, Microsoft, интегрированные с системами планирования и бюджетирования; отрасли энергетики, нефтехимии – требуются BI-системы для повышения эффективности системы управления, такие решения реализованы в системах сбалансированных показателей (BSC) и поддерживаются базовыми модулями SAP ERP.
Потребность в системах искусственного интеллекта возникает по мере достижения предприятием достаточно высокой культуры управления.
Экспертные системы
Однозначного определения понятие экспертной системы не имеет.
Экспертная система (ЭС, Expert system ) – система искусственного интеллекта, включающая знания об определенной слабо структурированной и трудно формализуемой узкой предметной области и способная предлагать и объяснять пользователю разумные решения.
Согласно толковому словарю по информатике, под экспертной системой понимают систему искусственного интеллекта, которая включает в себя базу знаний с набором правил и механизмом вывода, позволяющую на основании этих правил и предоставляемых пользователем фактов распознавать ситуацию, ставить диагноз, формулировать решение или давать рекомендации для выбора действия.
Иногда вместо определения понятия дают перечень свойств экспертных систем: экспертная система ограничена определенной сферой экспертизы; способна рассуждать при сомнительных данных; способна объяснять цепочку рассуждений понятным способом; факты и механизм вывода четко отделены друг от друга; она строится так, чтобы имелась возможность постепенного развития и наращивания системы; чаще всего она основана на использовании правил; на выходе выдает четкий совет; экономически выгодна.
Технология ЭС существенно расширяет круг практически значимых задач, решение которых с использованием современных средств вычислительной техники, приносит значительный экономический эффект. ЭС предназначены для решения неформализованных задач, к которым относят задачи, обладающие одной или несколькими из следующих характеристик:
- не могут быть заданы в числовой форме;
- цели не могут быть выражены в терминах точно определенной целевой функции;
- не существует алгоритмического решения задач;
- алгоритмическое решение существует, но его нельзя использовать из-за ограниченности ресурсов (время, память).
Неформализованные задачи характеризуются: ошибочностью, неоднозначностью, неполнотой и противоречивостью исходных данных, знаний о проблемной области и решаемой задаче; большой размерностью пространства решения, т.е. перебор при поиске решения весьма велик; динамически изменяющимися данными и знаниями.
Классификация ЭК приведена в табл. 6.5.
Таблица 6.5 – Классификация экспертных систем
Признак классификация | Виды ЭС |
назначение Ø | -общего назначения. -специализированные (проблемно-ориентированные для задач диагностики, проектирования, прогнозирования, предметно-ориентированные для специфических задач, например, контроля ситуаций на атомных электростанциях) |
степень зависимости от внешней среды | -статические (не зависящие от внешней среды), -динамические (учитывающие динамику внешней среды и предназначенные для решения задач в реальном времени) |
тип использования | -изолированные, -ЭС на входе/выходе других систем, -гибридные (интегрированные с базами данных и другими программными продуктами) |
стадии создания | -исследовательские образцы (разработанные за 1-2 месяца с минимальной БЗ), -демонстрационные (разработанные за 2-4 месяца на языке типа LISP, PROLOG, CLIPS и др.), -промышленные (разработанные за 4-8 месяцев на языке типа CLIPS с полной БЗ), -коммерческие (разработанные за 1,5-2 года на языке типа С++, Java с полной БЗ) |
Полностью оформленная статическая экспертная система имеет шесть существенных компонент: машину логического вывода (решатель, интерпретатор); базу данных (рабочую память); базу знаний; компоненты приобретения знаний; объяснительный компонент; диалоговый компонент. Все шесть компонент являются важными, и, хотя система, основанная на знаниях, может обойтись без одной-двух из них, в общем, она может быть представлена в следующем виде.
База знаний - содержит факты (или утверждения) и правила. Факты представляют собой краткосрочную информацию в том отношении, что они могут изменяться, например, в ходе консультации. Правила представляют более долговременную информацию о том, как порождать новые факты или гипотезы из того, что сейчас известно. В настоящее время часто понятие базы знаний пытаются заменить базой данных. Основное различие последнего состоит в том, что база знаний обладает большими творческими возможностями, а база данных обычно пассивна: данные либо там есть, либо их нет. База знаний, с другой стороны, активно пополняется новой и недостающей информацией.
Подсистема логического вывода (логическая машина вывода), используя исходные данные из рабочей памяти (БД) и базы знаний (БЗ), формирует такую последовательность правил, которая приводит к решению задачи. Различают прямую и обратную цепочки рассуждений. Прямая цепочка – это цепочка, которая ведет от данных к гипотезам, при этом в процессе диалога до получения ответа может быть задано неограниченное количество вопросов. Обратная цепочка рассужденийявляется попыткой найти данные для доказательства или опровержения некоторой гипотезы. На практике в чистом виде не встречаются ни одна из рассмотренных цепочек рассуждений. Объясняется не однозначностью данных, используемых при рассуждениях.
Редактор знаний (компонент приобретения знаний автоматизирует процесс наполнения ЭС знаниями, источником которых является эксперт либо группа экспертов.
Объяснительный компонент разъясняет пользователю, как система получила решение задачи (или почему она не получила решение) и какие знания при этом использовала, что повышает доверие пользователя к полученному результату.
Интерфейс пользователя (диалоговый компонент) ориентирован на организацию дружественного общения с пользователем как в ходе решения задач, так и в процессе приобретения знаний и объяснения результатов работы.
База данных (БД) предназначена для хранения исходных и промежуточных данных решаемой в текущий момент задачи.
Статические ЭС используются в приложениях, где можно не учитывать изменения, происходящие за время решения задачи.
В случаях, когда необходимо учитывать динамику, т.е. изменения, происходящие в окружающем мире, в архитектуру ЭС вводится два компонента: подсистема моделирования внешнего мира и подсистема связи с внешним окружением, которая осуществляет связи с внешним миром через систему датчиков и контроллеров, либо используя СУБД. Кроме того, существенным изменениям подвергаются и остальные подсистемы.
Архитектура динамической ЭС приведена на рис. 6.13.
Экспертная система может работать в двух режимах: приобретения знаний и решения задачи (режим консультации или режим использования). В режиме приобретения знаний общение с ЭС осуществляет эксперт, который, используя компонент приобретения знаний, наполняет систему информацией, позволяющей ЭС в режиме консультации самостоятельно (без эксперта) решать задачи из проблемной области. Эксперт описывает проблемную область в виде совокупности правил и данных. Данные определяют объекты, их характеристики и значения, существующие в области экспертизы, правила – способы манипулирования данными, характерные для рассматриваемой области.
Рисунок 6.13 – Архитектура динамической экспертной системы
В режиме консультации общение с ЭС осуществляет конечный пользователь, которого интересует результат и (или) способ его получения. В качестве конечного пользователя, может и эксперт, и программист, и лицо, принимающее решение – ЛПР.
В режиме консультации данные о задаче пользователя после обработки их диалоговым компонентом поступают в рабочую память. Машина логического вывода на основе входных данных, общих данных о проблемной области и правил из БЗ формирует решение задачи.
Экспертная система отличается от прочих прикладных программ наличием следующих признаков:
- моделирует не столько физическую (или иную) природу определенной проблемной области, сколько механизм мышления человека применительно к решению задач в этой проблемной области, основное внимание уделяя воспроизведению компьютерными средствами методики решения проблем, которая применяется экспертом;
- помимо выполнения вычислительных операций, формирует определенные соображения и выводы, основываясь на тех знаниях, которыми она располагает. Знания в системе представлены, как правило, на некотором специальном языке и хранятся отдельно от собственно программного кода, который и формирует выводы и соображения;
- при решении задач основными являются эвристические и приближенные методы, которые, в отличие от алгоритмических, не всегда гарантируют успех, т.к. не требуют исчерпывающей исходной информации и обеспечивают определенную степень уверенности (или неуверенности), что предлагаемое решение является верным.
Экспертные системы отличаются и от других видов программ из области искусственного интеллекта:
- имеют дело с предметами реального мира, операции с которыми обычно требуют наличия значительного опыта, накопленного человеком. Множество программ из области искусственного интеллекта являются сугубо исследовательскими, и основное внимание в них уделяется абстрактным математическим проблемам или упрощенным вариантам реальных проблем, целью выполнения такой программы – «повышение уровня интуиции» или отработка методики. Экспертные системы имеют ярко выраженную практическую направленность в научной или коммерческой области;
- должна за приемлемое время найти решение, которое было бы не хуже, чем то, которое может предложить специалист в этой предметной области;
- должна обладать способностью объяснить, почему предложено именно такое решение, и доказать его обоснованность.
В разработке ЭС принимают участие:
- эксперт в проблемной области, задачи которой будет решать ЭС;
- инженер по знаниям - специалист по разработке ЭС (используемые им технологии, методы называют технологией (методами) инженерии знаний);
- программист по разработке инструментальных средств, предназначенных для ускорения разработки ЭС.
В основе разработки ЭС лежит процесс передачи потенциального опыта решения проблемы от некоторого источника знаний и преобразование его в вид, который позволяет использовать эти знания в программе. Передача знаний выполняется в процессе достаточно длительных и пространных собеседований между специалистом по проектированию экспертной системы (инженером по знаниям) и экспертом в определенной предметной области, способным достаточно четко сформулировать имеющийся у него опыт.
Исследователи рассматривают функцию приобретения знаний в качестве одного из главных «узких мест» технологии экспертных систем. Это объясняется следующими причинами:
- во многих проблемных областях специалисты пользуются собственным жаргоном, который трудно перевести на обычный «человеческий» язык, потому требуется много дополнительных вопросов для уточнения его логического или математического значения;
- факты и принципы, лежащие в основе многих специфических областей знания эксперта, не могут быть четко сформулированы в терминах математической теории или детерминированной модели, свойства которой хорошо понятны;
- для решения проблемы в определенной области эксперту недостаточно обладать суммой знаний о фактах и принципах в этой области: насколько надежны различные источники информации и как можно расчленить сложную проблему на более простые, которые можно решать более или менее независимо и т.д.
- экспертный анализ включает многие вещи, кажущиеся эксперту само собой разумеющимися, но для постороннего отнюдь таковыми не являющиеся.
Основными методологическими принципами построения ЭС (как любых СОЗ):
- информационный – объектом является все то, что является источником информации;
- системности – объект, представляющий собой совокупность взаимосвязанных объектов, называется системой. Всякий объект может являться элементом одновременно многих систем;
- отражения – любой объект обладает различными свойствами, проявляющимися в рамках соответствующих систем, элементом которых является объект;
- структурности – структура системы отражает структуру предметной области; знания организуются в БЗ, имеющую определенную структуру, механизм доступа и алгоритмы использования.
В настоящее время сложилась определенная технология разработки ЭС, которая включает следующие этапы: идентификация, концептуализация, формализация, выполнение, тестирование и опытная эксплуатация (рис.6.13).
Рисунок 6.13 – Этапы разработки ЭС
На этапе идентификации осмысливаются задачи, которые предстоит решить будущей ЭС, и формируются требования к ней, определяется, что надо сделать и какие ресурсы необходимо задействовать.
Идентификациязадачи заключается в составлении неформального описания общих характеристик задачи; подзадач, выделяемых внутри задачи; ключевые объекты, их входные (выходные) данные; предположительный вид решения, знания, относящиеся к решаемой задаче. Начальное неформальное описание задачи экспертом используется инженером по знаниям для уточнения терминов и ключевых понятий. Эксперт корректирует описание задачи, объясняет, как решать ее и какие рассуждения лежат в основе того или иного решения.
При проектировании ЭС типичными ресурсами являются источники знаний, время разработки, вычислительные средства и объем финансирования. Для эксперта источниками знаний служат его предшествующий опыт по решению задачи, книги, известные примеры решения задач, а для инженера по знаниям — опыт в решении аналогичных задач, методы представления знаний и манипулирования ими, программные инструментальные средства.
На этапе концептуализации проводится содержательный анализ проблемной области, выявляются используемые понятия и их взаимосвязи, определяются методы решения задач, определяются особенности задачи: типы доступных данных; исходные и выводимые данные; подзадачи общей задачи; применяемые стратегии и гипотезы; виды взаимосвязей между объектами ПО, типы используемых отношений (иерархия, причина-следствие, часть-целое и т.п.); процессы, применяемые в ходе решения; состав знаний, используемых при решении задачи; типы ограничений, накладываемых на процессы, которые применены в ходе решения; состав знаний, используемых для обоснования решений. На этом этапе строится концептуальная модель предметной области. Для ее построения можно использовать:
- признаковый (атрибутивный) подход, который предполагает наличие полученной от экспертов информации в виде троек объект-атрибут-значение атрибута и наличие обучающей информации. Этот подход развивается в рамках направления, получившего название «машинное обучение»;
- структурный (когнитивный), реализуемый путем выделения элементов предметной области, их взаимосвязей и семантических отношений.
На этапе формализации все ключевые понятия и отношения выражаются на некотором формальном языке, который либо выбирается из числа уже существующих, либо создается заново, определяется состав средств и способы представления декларативных и процедурных знаний, формируется описание решения задачи ЭС на предложенном (инженером по знаниям) формальном языке.
Результатом этапа формализации является указание способов представления знаний (фреймы, сценарии, семантические сети и т.д.) и определение способов манипулирования этими знаниями (логический вывод, аналитическая модель, статистическая модель и др.) и интерпретации знаний.
На этапе выполнения создаются один или несколько прототипов ЭС, решающих требуемые задачи, по результатам тестирования и опытной эксплуатации создается конечный продукт, пригодный для промышленного использования.
В ходе этапа тестирования производится оценка выбранного способа представления знаний в ЭС в целом.
На этапе опытной эксплуатации проверяется пригодность ЭС для конечного пользователя.
Дата добавления: 2016-06-24; просмотров: 3354;