Построение единого информационного пространства на предприятии.

Сегодня работа информационно-аналитических систем основывается на технологиях анализа текста.

Рассмотрим две функции таких систем:

1. Ввода данных в систему.

2. Формирования вторичной информации о документе.

Например, ключевые темы, аннотации, семантические сети документов, фактографическая информация, и др. с использованием технологии ETL (Extract-Transform-Load – выделения-преобразования-загрузки) и аналитической обработки [34].

Это означает переход от экспертной обработки данных в фазе ETL к автоматизированной, а затем и к полностью автоматической при больших потоках данных и достаточной достоверности автоматического процесса структурирования контента. В ближайшем будущем, наиболее востребованными будут системы с максимально автоматизированными ETL-процессами. В частности, доминирующей сегодня в ряде известных систем экспертный семантический анализ контента будет уступать автоматическим методам синтаксического и постсинтаксического анализа русскоязычных текстов.

Подобные системы предназначены для аналитической обработки текстовой информации с целью получения из нее новых знаний. Особенностью систем является возможность параллельной обработки разнородной неструктурированной информации (документов) из различных источников:

- сообщений СМИ;

- сообщений информационных агентств;

- аналитических материалов различного профиля;

- документов сети Интернет;

- почтовых и управленческих документов и др.

Системы обеспечивают возможность поиска и аналитической обработки информации, по одному запросу можно получить документы из различных баз данных, файловых систем и др. В таких системах используется нечеткая векторная модель поиска и семантический анализатор текста. С помощью синтаксического анализатора поисковый запрос преобразуется в вектор термов, и на множестве текстов фонда ищутся наиболее близкие к вектору запроса документы. В системах автоматически поддерживается целостность словарей, классификаторов и других метаданных, размещенных в разных узлах распределенной системы, автоматически тиражируются профильные документы по различным темам.

Система извлечения знаний опирается на Единое Информационное пространство (ЕИП), обеспечивающее хранилища неструктурированной информации [35] (рис.7.37).

В ЕИП исходные материалы организуются иерархически:

- на нижнем уровне условной модели находятся конкретные документы;

- на следующем уровне расположены фонды документов (материалы, объединенные по общим источникам и времени публикации, например, сообщения российских СМИ);

- на верхнем уровне находятся хранилища – объединения фондов.

В системах на основе ЕИП достигается высокое качество сервисов тематического рубрицирования, определения тональности документов, высокая точность выделения фактов из текста за счет использования развитых компонентов анализа естественного языка. Углубленный анализ анафорических предложений повышает количество выбираемых информаций об объекте и фактов, в среднем на 50-80%.

Рис.7.37 – Иерархическая организация ЕИП.

Принятый в подобных системах подход допускает дальнейшее исследование результатов анализа, полученных на предыдущем, менее общем, уровне иерархии ЕИП. Виды извлекаемой из документа информации – аннотация, отнесение его к определенной тематической рубрике, тональная окраска, ключевые темы и информационные объекты – могут служить исходным материалом, точкой входа для анализа подборки документов. Выделенные из текстов объекты образуют семантические группы, например, «юридические лица», «физические лица».

Выбрав из нужной группы интересующий объект, аналитик получает все сервисы исследования материалов, посвященных этому объекту, на высшем уровне хранилищ документов. Мощную функциональность представляют многомерные частотные распределения текстов по любым критериям.

Однако подобная автоматизация бизнеса сегодня в России встречается достаточно редко, обычно речь идет об автоматизации отдельных участков и задач, хотя в последнее время все чаще используют комплексный подход.

Большинство программных средств, обеспечивающих аналитическую работу, как правило, реализуют следующие типичные функции:

- Функция сбора данных реализуется через создание необходимых конверторов, настраиваемых на сбор данных из различных информационных систем и использования так называемых поисковых роботов. Основное предназначение поисковых роботов – сбор данных на заранее предопределенную тематику из открытых источников Интернета.

- Функция накопления и хранения данных реализуется через создание специализированных хранилищ электронных данных. При этом разработчики могут использовать как общеупотребительные хранилища данных SQL, Oracle, файловые серверы, так и предлагают собственные решения в этой области (Hummingbird, Documentum, Lotus Notes и т.д.).

- Функция рубрикации может реализовываться через ручной ввод необходимых категорий (рубрик) или через автоматическую рубрикацию. Наиболее передовые технологии уже позволяют выполнять автоматическую рубрикацию документов без элементов «обучения» (настройки) системы.

- Функция поиска реализуется через алгоритмизацию математических моделей ассоциативно-статистического и синтактико-семантического подходов анализа данных.

- Функция построения отчетов реализуется через программные инструменты построения запросов, многомерного анализа (построения выборок по нескольким критериям отбора одновременно) и средства построения отчетов на заданные темы.

- Построение причинно-следственных цепочек реализуется с использованием математических моделей нейронных сетей.

- Программные средства моделирования данных, ситуационного или сценарного анализа позволяют моделировать финальные состояния объектов исследования в зависимости от изменения тех или иных данных в цепи преобразований.

В настоящее время на рынке информационных технологий в области аналитической работы представлены в основном компании-разработчики ПО зарубежного происхождения или российские компании, выполнявшие разработки в интересах зарубежных заказчиков. Лишь незначительная часть игроков рынка может похвастаться собственными разработками в этой области. Это объясняется несколькими причинами:

1) математический аппарат программного обеспечения в данной предметной области относится к НИОКР в области моделирования искусственного интеллекта, что требует привлечения персонала высочайшей квалификации;

2) низкая капиталоемкость российского рынка ИТ не позволяет выделить российским компаниям необходимые инвестиции на НИОКР в данной области.

Соответственно, о наличии полнофункциональных аналитических систем возможно говорить только у крупных зарубежных разработчиков. Следующий класс представителей игроков на этом рынке занимают компании-«зеркала» западных предприятий, которые заказывали разработку программного обеспечения, закрывающего узкий сегмент данного рынка, а именно, более глубокую проработку одной из функций этой технологии. Эти программные продукты отличает более сильная реализация отдельных функций относительно полнофункциональных систем. Недостаток этих продуктов – хорошая аналитика только по донному из каналов поступления информации. Отдельную категорию занимают большое количество российских предприятий, которые сегодня представляют свои решения в области аналитических информационных систем и анализа текстовых документов.

Для того чтобы понять принцип работы таких систем, рассмотрим пример.

Пример: реализация аналитической системы XFiles.

Источник: рекламные компании XFiles.

Перейдем к рассмотрению реализации концепции аналитической информационной системы в системе управления фактографической информацией XFiles, созданной с использованием программных компонентов нескольких фирм, среди которых:

- Hummingbird;

- Oracle;

- Гарант-Парк-Интернет;

- Inxight;

- ABBYY Software Hose;

- Altova.

Кратко остановимся на основных понятиях информационной модели системы.

Факт – событие (как правило, зафиксированное и произошедшее), сопровождаемое временной и географической метками. Факт может быть извлечен из текста документов, либо определен экспертом.

Гипотеза – аналитическое высказывание (полученное не из внешнего источника данных) относительно состояния атрибута досье, сопровождаемое также аргументирующей информацией, ссылками на источники и др. Гипотеза может порождаться различными подсистемами извлечения знаний или экспертами.

Объект – это сущность, факты относительно которой накапливаются в системе. Объект имеет семантический фильтр для самоидентификации в тексте.

Тип досье – описание проблемной области, представленное в виде иерархии атрибутов. Для каждого объекта должен быть определен, по крайней мере, один тип досье.

Досье – реализация типа досье для конкретного объекта.

Атрибут – это структурные элемент типа досье, предназначенный для накопления фактов одного типа, например, биографических данных, сведений о поездках и др.

Связь – это направленное или ассоциативное отношение определенного типа между объектами системы.

Поскольку предметная область зачастую довольно обширна, целесообразно использование нескольких досье для одного объекта.

Например, одно досье может отражать бизнес-деятельность объекта, второе – его личную собственность, третье – медицинские данные, и другие.

Такой подход дает возможность различным группам аналитиков «чувствовать» только профильную для них группу атрибутов.

Однако лицо, принимающее решение, может анализировать все досье объекта и все его связи.

В представленном на рис.7.38 примере Объект Х объединяет два типа досье: Тип досье А и Тип досье В, и содержит все семь атрибутов. Объект Y имеет один Тип досье В и содержит 4 атрибута. Атрибут 4 одновременно входит в состав обоих типов досье.

Рис.7.38 – Фрагмент информационной модели.

Одним из наиболее важных, но и наименее достоверных источников информации для выделения фактов является масс-медиа.

В связи с большой плотностью потока текстовой информации, в современных фактографических системах интенсивно развивается технология автоматического выделения фактов (а-факты), относящиеся к объектам мониторинга. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов.

Для последующей оценки достоверности фактов, их обобщения и для формирования аналитических материалов используется экспертная обработка. Экспертные факты (э-факты) вводятся авторизованным пользователем в интерактивном или пакетном режимах.

Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах, например Атрибут 4 (рис.7.39) при наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов проставляется ссылка на viz a viz объект. Этот процесс может выполняться автоматически и экспертно. Если объекта – второго участника связи нет в базе данных, то, в зависимости от параметров системы, он может быль либо создан автоматически, либо гипертекстовая ссылка не создается.

●

ОАО «Ульяновский автомобильный завод»0 (1)

●

О.Наумова (ОАО «Череповецкий сталепрокатный завод»)(*)0 (1)

●

В.Швецов («Северсталь-групп»)0 (1)

●

В.Позгалев (губернатор Вологодской области)0 (1)

●

Г.Шевцов – директор СКБ ОАО «Северсталь», депутат ЗСО (*)0 (1)

●

ЗАО «Северстальтранс»0 (1)

●

Заполярная руда0 (1)

●

ОАО «СВЕЗА»0 (1)

●

ОАО «Северсталь»0 (1)

●

ОАО «Северсталь-Авто»0 (1)

●

Р.Денискин «Северсталь-групп» (*)0 (1)

●

Страховая компания «Шексна»0 (1)

●

А.Мордашов («Северсталь-групп»)0 (2)

●

ОАО «Северсталь-ресурс»0 (3)

ОАО «Северсталь-групп»

Общий объект

Атрибут

Значение

Регион

Дата нач.

Дата оконч.

Страховая компания

29. Собственность

Страховая компания

Вологодская область

Рис.7.39 – Пример визуального интерфейса отображения связей.

В системе рассматриваются два типа связей: симметричные и ассиметричные.

1. Симметричная связь между двумя объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье у каждого из объектов гиперссылки на второй объект. При автоматическом выделении этого факта из текста первичным объектом связи считается объект – подлежащее, вторичным – дополнение. Например, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может быть факт дружбы с объектом Петров. В этом случае у объекта Петров появится симметричный факт и ссылка на объект орлов в этом же атрибуте.

2. В ассиметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при появлении факта кредитования одним объектом другого, для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого.

Примеры интерфейса отображения связей в системе представлены на рисунках 7.39-7.43. На рисунке 7.43 связи отображаются в виде дерева, а детальные данные выделенной строки-связи – в виде конкретных фактов.

Технология формирования а-фактов. На рисунке 7.40 представлен пример структуры источников информации, используемых для ведения досье.

Автоматическое выделение фактографической информации – это процесс выделения фактов для тех пар (объект, атрибут, досье), которые находятся в состоянии автоматического мониторинга (рис.7.41). В зависимости от типа атрибута и источника информации, процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, методами статистического анализа и др.

Рис.7.40 – Пример структуры источников фактов системы деловой разведки.

Рис.7.41 – Пример преобразования аномалий процессов, полученных

в системе экономического мониторинга, в а-факты.

Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь также фактографическое правило – правило, определяющее синтаксико-морфологический шаблон, по которому выделяется факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, на выходе формируется шаблон факта для всех похожих предложений.

На рис.7.42 представлен фрагмент накопленных а-фактов для атрибутов.

		18.1 Отрасль экономики	Деревообрабатывающая и целлюлозно-бумажная
		20. Сведения о производственной деятельности	Автомобильный блок (ОАО «Северсталь-Авто»
Значение	Интерв.дат	Регион	Связь
			√	Автомобильный блок (ОАО «Северсталь-Авто»): ОАО «УАЗ» (Ульяновский автозавод) и ОАО «ЗМЗ» (Заволжский моторный завод)
			√	Транспортное направление «Северстальтранс» - в числе крупнейших российских компаний, работающих в сфере железнодорожного, морского и речного транспорта. Контрагентами «Северстальтранс» является целый ряд крупных российских предприятий: НЛМК, ММК, Лебединский ГОК и др.
			√	Группа компаний «Северстальмаш» - крупнейший в России машиностроительный холдинг, специализирующийся на выпуске оборудования для металлургической отрасли. Направлениями деятельности холдинга являются тяжелое машиностроение (ООО «ССМ-Тяжмаш», ООО «Фуксметмаш»), сервис (ОАО «Домнаремонт», ООО «Стоик», ООО «Энергоремонт», ООО «Электроремонт», ОАО «Металлургремонт»), инжиниринг (ООО «ССМ-Инжиниринг», ОАО «КО ВНИИМЕТМАШ», «ОМЗ – металлургическое оборудование и технологии»).
			√	Металлургический блок (ОАО «Северсталь»): собственно Череповецкий металлургический комбинат, ОАО «ЧСПЗ» (Череповецкий сталепрокатный завод), ЗАО «Севергал» (производство оцинкованного автолиста), в котором ОАО «Северсталь» принадлежит 75% акций, а также сбытовые компании.	Вологодская область
			√	Сырьевой блок (ОАО «Северсталь-Ресурс»): ОАО «Олкон» (Оленегорский ГОК), ОАО «Карельский окатыш», активы ОАО «Кузбассуголь», ООО «Северный ниобий», АО «Стальмаг». 26 июня 2003 г. ОАО «Северсталь» приобрело на спецаукционе федеральный госпакет.

Рис.7.42 – Пример накопленных а-фактов для одного атрибута досье.

Технология выделения а-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту а-фактов, сравнимую с экспертными. Выделяемые связи между элементами смысла можно разделить на следующие основные классы:

- связи между ситуациями и их участниками – предикатно-аргументные связи, например: (сделать, покупка), (продажа, акции);

- связи внутри именных групп (генитивные цепочки), обычно называющих участников ситуации, - атрибутивные связи, например, акт (террористический, боевиков), предприятие (прибыльное, город);

- связи между ситуациями – предикатно-предикатные, например, покупать (учиться), бороться (искореняя);

- связи ситуаций с обстоятельствами или дополнительными атрибутами.

В последней технологической фазе извлечения а-фактов движок фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Хотелось бы еще раз отметить, что выделенный факт – это не контекст, а выделенные из него свойства.

Технология формирования досье. В условиях коллективной работы зачастую вводятся несколько фактов в один атрибут для одного объекта, после чего возникает необходимость экспертного оценивания достоверности введенных, возможно противоречивых, фактов. Для этого в БД досье хранится дополнительная информация, подтверждающая факты в форме: цитат из документов, прикрепленных к факту документов, почтовых сообщений, заключений экспертов и др.; видеофрагментов и графических файлов.

Каждый факт в системе имеет статус достоверный или недостоверный. Эксперт, на основе дополнительной подтверждающей информации в базе данных, может принять решение об изменении статуса факта, либо его удалить (при этом факт остается некоторое время в корзине БД, из которой он может быть восстановлен).

В системе реализован трекинг фактов. Для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Аналитическая обработка фактов. В системах бизнес-разведки обычно реализованы следующие базовые виды аналитической обработки фактов:

- построение исторической цепочки фактов для каждого атрибута досье объекта;

- автоматическое порождение досье на появившиеся в связях новые объекты. В случае появления в факте нового объекта – участника связи по определенному атрибуту досье (например, конкуренты), по нему автоматически создается досье и новый объект ставится на мониторинг;

- автоматическое выявление косвенных связей объекта с другими объектами системы (связи через третий объект или по общим диапазону дат и обстоятельству места) (рис.7.43);

Рис.7.43 – Типы связей объектов.

- поиск наиболее коротких цепочек связей между заданными объектами;

- построение сети связей объекта (рис.7.44);

- определение областей влияния объекта;

- выявление кластеров (плотных скоплений) связанных объектов (группировок);

- поиск релевантных объектов и связей по контенту фактов.

Рис.7.44 – Фрагмент сети связей объектов в системе XFiles 2009.

Современные информационный технологии относятся к технологиям извлечения знаний, в качестве источников включающей все системы, используемые в процессе подготовки и принятия решений. Обычно эти системы интегрированы в корпоративный аналитический портал компании. Растущая популярность этого класса информационных систем объясняется возможностью интеграции знаний, накапливаемых экспертами и программами-автоматами. Этим достигается важное сочетание возможностей автоматического сбора большого числа относительно «сырых» фактов из различных источников, их экспертной оценки и информационной поддержки принятия адекватных решений. Основанные на этом подходе системы аналитической работы компаний получают качественно новые преимущества.

<17 18 19 20 21 2223>

Дата добавления: 2015-02-16; просмотров: 1859;