Определение общностей

Факторный анализ

Основные понятия факторного анализа

6.1 Метод главных компонент был основан на переходе от признаков X₁, X₂, X₃, ..., X_m или от их нормированных значений z₁, z₂, z₃, ..., z_m - к новым некоррелированным переменным - главным компонентам y₁ = b₁'z, y₂ = b₂'z, y₃ = b₃'z, ..., y_m = b_m'z, что в более компактном виде можно было записать в виде

y = B'z, (6.1)

где матрица B включала в виде своих столбцов собственные векторы b₁, b₂, b₃,..., b_m. Формулу (6.1) можно также переписать в ином виде

z = By , (6.2)

что в развернутой форме можно представить также как

z₁ = b₁₁y₁ + b₂₁y₂ + b₃₁y₃ + ... + b_m1y_m

z₂ = b₁₂ y₁+ b₂₂ y₂ + b₃₂ y₃ + ... + b_m2 y_m

z₃ = b₁₃ y₁ + b₂₃ y₂ + b₃₃ y₃ + ... + b_m3 y_m (6.3)

... ... ... ... ... ...

z_m = b_1m y₁ + b_2m y₂ + b_3m y₃ + ... + b_mm y_m .

Для отдельного i-го исходного признака такое равенство можно записать в виде

z_i = b_1iy₁ + b_2iy₂ + b_3iy₃ + ... + b_miy_m . (6.4)

В формулах (6.3) и (6.4) b_ji - означает элемент j-го собственного вектора, соответствующего j-й главной компоненте y_j, для i-го признака z_i.

Выражения (6.2) - (6.4) означают разложение нормированной величины каждого исходного признака z_i в виде суммы вкладов, каждый из которых обусловлен j-й главной компонентой y_j. Кроме этого, в соответствии с разделом 5.12 дисперсия любого i-го нормированного признака, равная 1, может быть представлена в виде

1 = l₁b_1i² + l₂b_2i² + l₃b_3i² + ... + l_mb_mi² , (6.5)

также означающем ее разложение в виде суммы вкладов, зависящих от всех главных компонент. Наконец, любой коэффициент корреляции r_ik для i-го и k-го признаков может быть записан в виде суммы

r_ik = l₁b_1ib_1k + l₂b_2ib_2k + ... + l_mb_mib_mk , (6.6)

вкладов в него каждой из всех m главных компонент. В формулах (6.5) - (6.6) l_j - означает j-е собственное число.

Аналогичные разложения могут быть выписаны и через нагрузки a_ji признаков на главные компоненты. Так, с учетом соотношения a_ji = b_ji(l_j)^1/2, формулы (6.5) - (6.6) можно переписать как

1 = a_1i² + a_2i² + a_3i² + ... + a_mi² , (6.7)

r_ik = a_1ia_1k + a_2ia_2k + ... + a_mia_mk . (6.8)

Значения главных компонент y_j имеют дисперсии равные соответствующим собственным числам l_i. Если пользоваться их нормированными величинами z_yj = y_j/ (l_j)^1/2, то разложение (6.4) также можно представить через нагрузки

z_i = a_1iz_y1 + a_2iz_y2 + a_3iz_y3 + ... + a_miz_ym . (6.9)

- 106 -

6.2 Приведенные разложения значений исходных признаков, их дисперсий и коэффициентов корреляции жестко связаны с системой главных компонент, имеющих фиксированные и вполне определенные свойства. Вместе с тем, подобные разложения могут быть записаны через другие новые переменные, имеющие не столь определенно заданные свойства. Назовем эти новые переменные факторами. Тогда формулы (6.4) и (6.9) можно записать в виде разложения значений признака через вклады этих факторов

z_i = a_1if₁ + a_2if₂ + a_3if₃ + ... + a_nif_n . (6.10)

Здесь f_j - факторы, значения которых имеют нормированную форму варьирования с нулевой средней и единичной дисперсией. Если число главных компонент было равным числу исходных признаков m, то количество факторов n может быть другим. Разумнее положить, что n < m, так как это будет означать достижение большей компактности описания факторами закономерностей варьирования и коррелированности признаков. Если главные компоненты были взаимно некоррелированными, то для факторов это свойство может и не соблюдаться. Факторы могут по желанию исследователя или в соответствии с реальной ситуацией быть некоррелированными или обладающими взаимными связями. Понятно, что главные компоненты могут также считаться факторами.

6.3 Если мы имеем два признака X₁ и X₂, связанные взаимной корреляцией с коэффициентом r₁₂, это означает, что их вариация в какой-то степени определяется одновременным и параллельным действием некоторых общих причин (рис.6.1). Очевидно, что эти влияния приводят к появлению в изменчивости каждого из них некоторого особого компонента. Такие компоненты вариации этих двух признаков будут согласованы, так что с изменением значений одного признака величина другого - также будет определенным образом закономерно изменяться. Компонент изменчивости признака, обусловленный влиянием на него общих причин, называется общностью этого признака.

Корреляция признаков никогда не достигает предельного случая с коэффициентом r₁₂ = 1. Это означает, что вариация любого признака кроме действия общих причин вызывается также влиянием некоторых специфических факторов изменчивости, независимых для каждого отдельного показателя. Это приводит к появлению в вариации любого признака кроме общности также особого дополнительного компонента, называемого характерностью.

Характерности разных признаков независимы друг от друга. Реальная величина корреляции двух признаков складывается из соотношения их общностей и характерностей. При высоком уровне общности и малом - характерности у некоторого признака, значения его коэффициентов корреляции с другими показателями будут высокими. Напротив, если в вариации признака особенно велика характерность, уровень его коррелированности - мал.

Если мы имеем дело с нормированными значениями признаков, когда дисперсии равны 1, то для j-го показателя можно записать

1 = h_j² + d_j² (6.11)

где h_j² - его общность, d_j² - характерность. Это означает, что дисперсия признака может быть представлена как сумма общности и характерности.

В свою очередь, в характерности можно выделить долю изменчивости признака, связанную с влиянием ошибок измерений e_j², и долю вариации, обусловленную действием

- 107 -

Признаки

X₁X₂

Ü r ₁₂ Þ

ñ õ ö ñ

D₁ F₁₂D₂

Характерные Общие причины Характерные

причины вариации причины

вариации X₁ X₁ и X₂ вариации X₂

Рисунок 6.1. Схема возникновения корреляции между признаками X₁ и X₂ вследствие влияния на их изменчивость общих и характерных причин вариации

собственно специфических причин вариации - b_j². Последний компонент называется специфичностью признака. С учетом сказанного можно записать равенство

1 = h_j² + b_j² + e_j² . (6.12)

6.4 Вышеприведенные рассуждения являются умозрительными, но вполне вероятными. С их учетом разложение значений признака по факторам (6.10) существенно изменится. Так, если принять справедливость выделения в изменчивости любого признака двух компонент - общности и характерности, потребуется также различать и факторы, одно из назначений которых – описывать вариацию исходных переменных. Поэтому, среди факторов следует выделять особую категорию так называемых общих факторов, учитывающих общности признаков. Для описания характерностей признаков следует полагать наличие для каждого из них так называемого характерного фактора. Тогда разложение (6.10) для j-го признака z_j примет более сложный вид

z_j = a_1jf₁ + a_2jf₂ + ... + a_njf_n + d_ju_j , (6.13)

где a_1j, a_2j, ... a_nj - коэффициенты этого признака для общих факторов: f₁ , f₂ , ... , f_n, d_j - аналогичный коэффициент на характерный фактор u_j. Для всех m исходных нормированных признаков такие разложения можно записать в виде

z₁ = a₁₁f₁ + a₂₁f₂ + ... + a_n1f_n + d₁u₁

z₂ = a₁₂f₁ + a₂₂f₂ + ... + a_n2f_n + d₂u₂

z₃ = a₁₃f₁ + a₂₃f₂ + ... + a_n3f_n + d₃u₃. (6.14)

... ... ... ... ... ...

z_m = a_1mf₁ + a_2mf₂ + ... + a_nmf_n + d_mu_m

Коэффициенты всех m признаков на n общих факторов можно записать в виде так называемой матрицы факторного отображения

- 108 -

a₁₁ a₂₁ a₃₁ ... a_n1

a₁₂ a₂₂ a₃₂ ... a_n3

a₁₃ a₂₃ a₃₃ ... a_n3 = A , (6.15)

... ... ... ... ...

a_1m a_2m a_3m ... a_mm

где i-м столбцом окажутся элементы этого отображения на все признаки у i-го фактора. Аналогичным образом, в виде диагональной матрицы можно записать элементы факторного отображения на характерные факторы у всех m исходных признаков

d₁ 0 0 ... 0

0 d₂0 ... 0

0 0 d₃ ... 0 = D .

... ... ... ... ...

0 0 0 ... d_m

Значения общностей и характерностей признаков также могут быть записаны в виде диагональных матриц Hи V

h₁² 0 0 ... 0

0 h₂² 0 ... 0

0 0 h₃² ... 0 = H, (6.16)

... ... ... ... ...

0 0 0 ... h_n²

d₁² 0 0 ... 0

0 d₂² 0 ... 0

0 0 d₃² ... 0 = V , (6.17)

... ... ... ... ...

0 0 0 ... d_n²

Очевидно, что эти матрицы соотносятся в виде

H + V = I (6.18)

С учетом введенных обозначений разложение значений m признаков по факторам можно представить в компактном виде

z = Af+ Du , (6.19)

где z - вектор нормированных значений m исходных признаков, f- вектор значений n общих факторов, u - вектор характерных факторов. Это разложение называется факторным отображением.

Обычно исследователей интересуют закономерности коррелированности признаков, которые проявляются в общих факторах. Поэтому часто характерные факторы не рассматриваются, и факторное отображение сводится к краткой его форме

z = Af. (6.20)

Кроме набора элементов факторного отображения признаков на факторы обычно рассматриваются коэффициенты корреляции между факторами и признаками, называемые также нагрузками. Вся совокупность этих коэффициентов называется факторной структурой. Она может быть записана в виде соответствующей прямоугольной матрицы

- 109 -

r₁₁ r₂₁ r₃₁ ... r_n1

r₁₂ r₂₂ r₃₂ ... r_n3

r₁₃ r₂₃ r₃₃ ... r_n3 = R_f, (6.21)

... ... ... ... ...

r_1m r_2m r_3m ... r_mm

где r_ij - коэффициент корреляции i-го фактора и j-го признака. В компонентном анализе элементы факторного отображения являлись одновременно нагрузками исходных признаков на главные компоненты. В факторном анализе это соответствие выполняется не всегда. Однако, матрицы факторного отображения (6.15) и факторной структуры (6.18) соотносятся достаточно простым образом и поэтому, зная одну из них, можно получить - другую.

Матрицы A и R_f описывают основные закономерности коррелированности признаков. Поэтому, в определении и истолковании этих матриц заключается основная задача факторного анализа.

6.5 В факторном анализе подразумевается, что каждый j-й индивид характеризуется набором значений общих факторов f_1j, f_2j, ..., f_nj и характерных факторов u_1j, u_2j, ..., u_nj. Все они имеют нормированную форму варьирования с нулевой средней и единичной диспер-сией. Кроме этого общие факторы могут быть нескоррелированными или обнаруживаю-щими взаимные связи. В первом случае общие факторы называются ортогональными или прямоугольными, во втором - облическими или косоугольными. В зависимости от наличия или отсутствия корреляций между факторами их свойства могут различаться.

Ортогональные факторы обладают удобным свойством, в соответствии с которым матрицы факторного отображения A и факторной структуры R_f равны между собой

A= R_f. (6.22)

Поэтому, каждой элемент факторного отображения некоторого признака на некоторый ортогональный фактор является одновременно коэффициентом корреляции между ними или нагрузкой. Понятно, что элементы факторного отображения на ортогональные факторы всегда по величине меньше единицы. Для главных компонент их элементы факторного отображения также одновременно были нагрузками, что следовало из нескоррелированности (ортогональности) этих новых переменных.

Общности признаков просто связаны с элементами факторного отображения или нагрузками на ортогональные факторы

h_j² = a_1j² + a_2j² + a_3j² + ... + a_nj² . (6.23)

Иными словами, общность j-го признака равна сумме квадратов нагрузок этого признака на все общие факторы. Это равенство также может трактоваться как разложение общности признака как суммы вкладов в нее всех общих факторов.

Так же, как это было свойственно для главных компонент, для ортогональных факторов может быть введена P_i - доля суммарной вариации признаков, описываемая каждым из них. Для i-го фактора ее можно найти по формуле

P_i = (a_i1² + a_i2² + a_i3² + ... + a_im²) . (6.24)

В этом случае суммируются квадраты нагрузок у всех m признаков на i-й фактор.

- 110 -

Наконец, нагрузки ортогональных факторов связаны с коэффициентами корреляции между исходными признаками следующим соотношением

r_ik = a_1ia_1k + a_2ia_2k + a_3ia_3k + ... + a_nia_nk . (6.25)

Здесь r_ik - коэффициент корреляции между i-м и k-м исходными признаками, a_jiи a_jk - нагрузки j-го фактора на этих признаках. Это равенство может быть выписано для всех коэффициентов корреляции, которые можно вычислить для набора m исходных признаков, что позволяет найти по множеству значений r_ik все нагрузки на общие факторы. Соотношение (6.25) может также трактоваться как разложение любого коэффициента корреляции на ряд вкладов, каждый из которых a_jia_jk - описывает влияние j-го фактора на связь i-го и k-го исходных признаков.

В ситуации, когда используются облические факторы, равенство матриц факторного отображения и факторной структуры не выполняется A ¹ R_f . Так как облические факторы скоррелированы, при проведении анализа находится матрица коэффициентов корреляции между факторами

1 ф₁₂ф₁₃ ... ф_1n

ф₁₂ 1 ф₂₃ ... ф_2n

Ф = ф₁₃ ф₂₃ 1 ... ф_3n , (6.26)

... ... ... ... ...

ф_1n ф_2n ф_3n ... 1

где ф_ij - коэффициент корреляции между i-м и j-м факторами.

Таким образом, при использовании облических факторов находятся три матрицы: отображения - A, структуры - R_f , факторных корреляций - Ф. Между ними существуют простые соотношения

R_f = AФ (6.27)

A = R_f Ф^-1 .

Для облических факторов формулы (6.23) - (6.25) перестают выполняться.

6.6 Проведение факторного анализа обычно осуществляется при выполнении ряда этапов. Исходным материалом для рассмотрения, как правило, является корреляционная матрица, хотя имеются методы, когда результаты факторного анализа не зависят от того, какая матрица рассматривалась - корреляционная или ковариационная.

При проведении анализа главных компонент рассматривалась вся суммарная изменчивость исходных признаков. Поэтому, на главных диагоналях корреляционной матрицы, подвергавшейся вычислительной процедуре, находились единицы, соответствующие значениям целых дисперсий нормированных величин признаков. В факторном анализе рассматриваются общности признаков. Поэтому, основным материалом для проведения факторного анализа является так называемая редуцированная корреляционная матрица, содержащая на главной диагонали не единицы, а – общности признаков

h₁² r₁₂ r₁₃... r_1m

r₁₂ h₂² r₂₃ ... r_2m

R_* = r₁₃ r₂₃ h₃²... r_3m . (6.28)

... ... ... ... ...

r_1m r_2m r_3m ... h_m²

- 111 -

Равенство (6.25), выполняющееся для ортогональных факторов, в обобщенном виде может быть записано как

R_* = AA' . (6.29)

Действительно, произведения разных строк нагрузок матрицы Aдля разных признаков с номерами i и k дают в соответствии с формулой (6.25) величину коэффициента корреляции i-го и k-го признаков r_ik. Аналогично, произведение i-ой строки нагрузок матрицы A на себя дает в соответствии с равенством (6.23) значение общности i-го признака.

Для облических факторов равенство (6.29) не выполняется и справедлива иная формула

R_* = R_f A' . (6.30)

6.7Таким образом, первым шагом проведения факторного анализа является нахождение общностей, и определение тем самым редуцированной корреляционной матрицы, что позволяет в дальнейшем получить матрицу факторных нагрузок A. Процедура нахождения A или так называемая факторизация, обычно предполагает, что факторы ортогональны. Часто результаты вычислений матрицы A не позволяют достаточно ясно проинтерпретировать закономерности коррелированности признаков, которые описывают столбцы нагрузок. Поэтому, в дальнейшем проводится преобразование факторов с целью добиться более простого и ясного описания направлений коррелированности признаков. При этом от исходных ортогональных факторов, полученных в результате вычисления матрицы A, переходят к новым ортогональным или облическим факторам, интерпретация которых часто бывает более ясной.

Таким образом, при проведении факторного анализа осуществляется три шага:

- нахождение оценок общностей;

- получение матрицы нагрузок на ортогональные факторы;

- преобразование этих факторов.

Часто на втором шаге этой схемы происходит одновременно окончательное уточнение значений общностей признаков. Тогда считается, что на первом этапе были получены приближенные их оценки.

Определение общностей

6.8 Нахождение общностей и определение тем самым редуцированной корреляционной матрицы R_* требуется осуществить до начала выделения факторов - определения матрицы нагрузок на них A. Однако, в свою очередь, точные значения общностей по формуле (6.23) могут быть найдены только после получения нагрузок. Этот порочный круг может быть преодолен двумя способами.

В соответствии с первым из них общности находятся всего лишь как приближенные оценки. Дело в том, что при рассмотрении корреляционных матриц не слишком малого размера, определенных по значительным наборам признаков (m > 20), некоторые погрешности значений приближенных оценок общностей по сравнению с большим количеством m(m - 1)/2 точно вычисленных коэффициентов корреляции исходных признаков не скажутся сколько-нибудь серьезно на точности получаемых нагрузок. Для получения приближенных оценок было предложено несколько эвристических методов.

- 112 -

Первый и простейший из них заключается в нахождении оценки общности h_i² для некоторого i-го признака как максимального значения его коэффициента корреляции для связей со всеми остальными рассматриваемыми показателями

h_i² = max (r_i1, r_i2, r_i3, ..., r_im) . (6.31)

Опыт широкого использования этого приема в практике факторного анализа 30 - 50-х годов показал не слишком плохое качество таких простейших оценок общностей для не слишком малых размеров корреляционных матриц.

Другую простую оценку общности признака можно получить как среднюю величину из его коэффициентов корреляции с остальными показателями

1 _m-1

h_i² = S r_ij . (6.32)

m - 1 ^{j = 1}

Эта оценка общности дает несколько заниженные значения.

Более логически обоснованные оценки общностей можно получить по методу множественной корреляции. Здесь в качестве оценок общности h_i² для некоторого i-го признака используется квадрат его множественной корреляции R_i² со всеми остальными рассмат-риваемыми показателями. Действительно, R_i² по своему смыслу равен доле вариации i-го признака, обусловленной влиянием на него всех остальных m - 1 рассматриваемых переменных. Несмотря на то, что полного логического совпадения с понятием общности признака здесь - нет, определенная близость все же прослеживается. Так как требуется одновременно получить m значений коэффициентов множественной корреляции, это удобнее сделать с использованием формулы (3.29). Здесь сначала находится матрица R^-1 обратная к корреляционной матрице R для всех рассматриваемых признаков. Тогда ква-драт коэффициента множественной корреляции любого признака X_i по остальным показателям X может быть найден по формуле

R_i² = 1 - , (6.33)

r(ii)

где r(ii) - i-й диагональный элемент матрицы R^-1. Как показывает сравнение этих оценок общностей с более точными, значения R_i² дают несколько заниженные величины для h_i².

6.9 Наиболее точные оценки общностей получаются при одновременном нахождении общностей и нагрузок в ходе итерационных процедур. Одна из таких процедур может быть организована следующим образом. Сначала по методу квадрата множественной корреляции из формулы (6.33) получаются приближенные оценки общностей, которые подставляются на главную диагонально корреляционной матрицы, в результате чего находится первое приближение редуцированной ее формы R_*1. Для матрицы R_*1 находится матрица факторного отображения A₁, содержащая нагрузки. По нагрузкам из формулы (6.23) получаются новые оценки общностей, позволяющие получить новую редуцированную матрицу R_*2. В связи с тем, что диагональные элементы матрицы R_*1 находились в приближенном виде, нагрузки из матрицы A₁ будут также приближенными. Однако, определенные по ним значения общностей окажутся более близкими к истинным величинам. Поэтому, второе приближение редуцированной корреляционной матрицы R_*2 окажется более точным. По нему в свою очередь можно найти второе приближение матри-

- 113 -

цы нагрузок A₂, по которому можно найти третье приближение редуцированной матрицы R_*3 и т.д. Ход процесса можно изобразить в виде схемы:

R - ð приближенные значения общностей

R_*1 ð ð A₁

É ï ï Ã

R_*2 ð ð A₂

É ï ï Ã

... ... ... ... ...

É ï ï Ã

R_*_k ð ð A_k

На некотором k-м шаге-итерации значения матриц A_k и A_k-1 совпадут с заданной точностью. Это будет означать, что достигнуто также совпадение двух последовательных приближений R_*k и R_*k-1, в том числе и стоящих на главной диагонали значений общностей.

<12 3 4 5 6 7 >

Дата добавления: 2016-02-13; просмотров: 1500;