Аддитивность информации в задачах распознавания
Постановка задачи:
1. Пусть заданы алфавит классов Qi, i=1,…,m;
2. Априорные вероятности появления объектов различных классов P(Qi),
3. Словарь признаков {Xj}, j=1,…,n;
4. Частные распределения fi(xj);
5. Совместные Ф(i)j1,…,Ф(i)jr, (xj1,…,xjr), j1,…,jrÎ1,…,n;
6. Условные плотности распределений некоторых совокупностей признаков: f(i)j1,…,jr(xj/xj1,…,xjr).
Требуется установить:
1) является ли статистическая независимость признаков
достаточным условием равенства безусловной I(Xj) и условной I(Xj/xj1,…,xjr) информативности признаков или, что равносильно, достаточным условием аддитивности информации, т.е.:
Если то не так, то какие дополнительные условия необходимы для того, чтобы это свойство имело место;
2) является ли статистическая независимость признаков
необходимым условием аддитивности информации, иначе, возможно ли выполнение равенства I(X1,…,Xn) для некоторой совокупности статистически зависимых признаков.
Доказательство:
1. Исходная энтропия
2. После измерения признака Xj энтропия H(Xj) в системе распознавания
равна: ,
где - апостериорные вероятности отнесения распознаваемого объекта к классу Qi.
Среднее значение энтропии H(Xj) определяется интегрированием H(Xj) по всей области wj возможных значений Xj с весом f0j(Xj), т.е.
Одну из интерпретаций информативности признака Xj как
I|(Xj)=H0-H(Xj)
можно вычислить как разность энтропии распределения и средней энтропии распределений :
Аналогично совместная информативность признаков Xj и Xk равна:
Если принять, что при , то под областью wjk можно понимать всю плоскость (xj,xk). Тогда имеем:
Если все Ii = 0, включая и I0, то действительно
I(Xj,Xk)=I(Xj) + I(Xk)
Таким образом, само по себе условие статистической независимости признаков xj и xk, не является достаточным для аддитивности информации.
Вместе с тем необходим отбор и формирование достаточной совокупности информативных признаков.
Потенциально возможное количество информации, получаемое от измерительных устройств, равно (применительно к одному признаку):
где Дi – диапазон изменения j-го признака;
t0j – образцовая измерительная величина;
Xj – дискретное значение j-го признака, j=1,…,Дj/t0j;
Wn - n - тый источник информативности W-го объекта.
В качестве критерия значимости вводится некоторая величина I(j)H – информативность признака Xj, причем:
1) при I(j)H>I(g)H, (j¹g) вероятность правильной идентификации выше с
использованием Xj ,чем с Xg;
2) достоверность идентификации при использовании должна быть
линейной (монотонной) функцией суммы I(j)H для признаков в X.
Необходимо, чтобы I(j)Hбыла выбрана как среднее некоторой функции, находящейся в соответствии с информационным критерием идентификации и статистическими характеристиками контролируемого реального канала наблюдения объектов wn, n=1,…,r.
Этим условиям удовлетворяет величина:
,
являющаяся взаимной информацией признака Xj и контролируемых объектов wn.
С условием нормировки эта величина I(j)H может быть представлена как:
где Н(х) – исходная энтропия для внешней среды;
P(xj) – закон распределения вероятности для xj.
С другой стороны, значимость (добротность) признака для поэкземплярной идентификации wn выражается относительным расхождением между гипотезами при априорном знании распределений P(x/wn), P(x) и P(wn).
Для статистически независимых признаков критерий расстояния Sjk удовлетворяет всем требованиям для I(j)H, кроме условия нормировки, и для r экземпляров источников информации (wn) он может быть представлен как:
,
где Mj, Mk – векторы среднего для xj, xk.
Величина S2jk для нормального закона относительно P(x/w), P(x) и P(w) соответственно равна:
где , где j¹k – отношение правдоподобия.
k-1 – обратная коррелированная матрица.
Дата добавления: 2016-01-20; просмотров: 1729;