Понятия множественной корреляции и регрессии

3.2 В многомерном случае ситуация значительно осложняется. Теперь необходимо изучить связь признака Y не с одним признаком X, а с целым их набором X₁, X₂, X₃, ..., X_m. В этой ситуации признак Y называется зависимой переменной, а набор признаков X - набором независимых показателей.

Действуя по аналогии, можно попытаться описать форму связи с применением прямолинейного уравнения

Y_^i = a_o + a₁X_1i + a₂X_2i + ... + a_mX_m _i , (3.3)

где a_o - свободный член, a₁, a₂, ..., a_m - набор коэффициентов прямолинейной регрессии, X₁_i , X₂_i , ... , X_m _i - индивидуальные значения m признаков X у i-го индивида. Теснота связи может быть измерена корреляционным показателем

S_yo²

R² = 1 - , (3.4)

S_y²

сходным по конструкции с индексом корреляции. Здесь S_yo²- остаточная дисперсия признака Y, находимая по значениям регрессионных остатков

u_i = Y_^i - Y_i . (3.5)

Показатель тесноты многомерной связи R, находимый по формуле (3.4), называется коэффициентом множественной корреляции, а уравнение (3.3) - уравнением множественной регрессии.

Остаточная вариация признака Y нескоррелирована с независимыми признаками X. Отношение S_yo²/ S_y², определяющее величину коэффициента множественной корреляции может быть истолковано как доля остаточной вариации признака Y в его общей изменчивости. Поэтому, квадрат коэффициента множественной корреляции (3.4) может быть интерпретирован как доля изменчивости признака Y, обусловленная влиянием на него признаков X₁, X₂, X₃, ..., X_m.. Этот квадрат называется коэффициентом множественной детерминации переменной Y независимыми признаками X_i.

Для получения значений коэффициентов прямолинейной регрессии a₁, a₂, ..., a_m из уравнения (3.4) можно воспользоваться методом наименьших квадратов. В соответствии с его требованиями эти коэффициенты должны быть найдены так, чтобы сумма квадратов отклонений индивидуальных значений Y_i от соответствующих им регрессионных величин Y_^i была бы минимальной. Иными словами, эти коэффициенты должны быть найдены так, чтобы

- 34 -

_{N N}

S u_i² = S (Y_^i - Y_i)² = min . (3.6)

^{i = 1 i = 1}

Остаточная дисперсия определяется в виде

1 _N

S_yo² = S (Y_^i - Y_i)² , (3.7)

N - 1 _i_{= 1}

и условие (3.6) приводит к требованию S_yo² = min. Это влечет за собой достижение максимальной величины корреляционного показателя (3.4), т.е. - R² = max. Таким образом, параметры уравнения множественной регрессии a₁, a₂, ..., a_m должны быть найдены так, чтобы соответствующая ему остаточная дисперсия была бы минимальной, а коэффициент множественной корреляции – максимальным.

3.3 Решение поставленной задачи поиска значений параметров уравнения прямолинейной регрессии может быть осуществлено следующим образом. Пусть для набора признаков X мы ищем некоторый новый признак как их линейную комбинацию

z = c'X = c₁X₁ + c₂X₂ + ... + c_mX_m

Пусть также свойства этого нового признака z и набор определяющих его коэффициентов c₁,. c₂, ... c_m должны быть такими, что его коэффициент корреляции с признаком Y должен быть максимально большим.

Этот коэффициент корреляции r_zY можно найти следующим образом. В соответствием со структурой набора рассматриваемых признаков, состоящего из двух частей - Y и X, ковариационная матрица естественным способом разбивается на четыре блока

s₁₁ s₁₂ s₁₃ ... s_{1m |} s_1y

s₁₂s₂₂ s₂₃ ... s_2ms_2y

s₁₃ s₂₃ s₃₃ ... s_3ms_3yS_x S_xy

S = ... ... ... ... ... ... = . (3.8)

s_1ms_2m s_3m ... s_mm s_my S_xy' s_yy

s_1y s_2y s_3y ... s_m_y s_yy

Здесь: S_x - ковариационная матрица набора независимых переменных X, S_xy - столбец ковариаций между признаками X₁, X₂ , ... , X_m и зависимой переменной Y, S_xy'- строка, состоящая из тех же самых ковариацией, что и столбец S_xy, s_yy - дисперсия признака Y.

В соответствии с такой структурой ковариационной матрицы дисперсия нового признака z может быть по формуле (1.17) найдена как s_z²= c'S_xc. Ковариацию линейной комбинации z и признака Y можно найти по формуле

cov(zY) = c'S_xy = c₁s_1y + c₂s_2y + ... + c_ms_my,

и тогда коэффициент корреляции z и Y определится из равенства

c'S_xy

r_zY = .

s_yy (c'S_xc)^{1/ 2}

Его величина будет зависеть от набора коэффициентов c. Разумеется, эти коэффициенты должны быть выбраны таким образом, чтобы величина r_zY была бы максимальной.

- 35 -

В многомерной статистике доказывается, что это условие достигается, если набор коэффициентов c находится из равенства

c= S_x^-1S_xy . (3.9)

При этом c состоит из коэффициентов множественной регрессии

c' = a' = a₁ a₂ a₃... a_m ,

входящих в уравнение (3.3), а показатель r_zY равен коэффициенту множественной корреляции R, квадрат которого можно получить по формуле

Sxy'a

R² = . (3.10)

s_yy

Свободный член уравнения (3.3) можно найти из равенства

a_o = M_y - a₁M₁ - a₂M₂ - ... - a_mM_m , (3.11)

где M_y - средняя арифметическая величина признака Y, а M₁ , M₂ , ... , M_m - аналогичные средние признаков X₁, X₂, ..., X_m.

3.4 При вычислениях параметров регрессионных уравнений с использованием компьютерных программ обычно применяется следующий ход действий. В многомерном случае регрессионная модель (3.2), записанная для некоторого i-го наблюдения, приобретает форму

Y_i = a_o + a₁X_1i + a₂X_2i + ...+ a_mX_mi + u_i, (3.12)

что также можно записать в матричном виде

Y_i = a_o + a'X + u_i. (3.13)

Введем вектор a_*', включающий значения всех параметров регрессионного уравнения - свободный член a_o и набор коэффициентов регрессии - a

a_*' = a_o a₁ a₂ a₃ ...a_m = a_o | a'. (3.14)

Регрессионная модель (3.12) для отдельного наблюдения может быть также выписана для всех N случаев одновременно, если принять, что вектор

Y' = Y₁ Y₂ Y₃ ... Y_N

содержит значения зависимой переменной для этих случаев. Кроме этого вводится специальная матрица D, называемая матрицей плана. Она включает значения всех назависимых переменных X_ij у всех N наблюдений, к которым слева приписан столбец, состоящий из единиц, то есть -

1 X₁₁ X₂₁ X₃₁ ... X_m1

1 X₁₂ X₂₂ X₃₂ ... X_m2

D = 1 X₁₃ X₂₃ X₃₃ ... X_m3. (3.15)

... ... ... ... ... ...

1 X_1N X_2N X_3N ...X_mN

Тогда для всех N индивидуальных случаев регрессионная модель имеет матричный вид

Y = Da_* + u, (3.16)

- 36 -

где вектор uсодержит регрессионные остатки для всех N наблюдений

u' = [ u₁ u₂ u₃ ... u_N ]

В многомерной статистике доказывается, что условие метода наименьших квадратов (3.6)

S u_i² = min

^{i = 1}

приводит к тому, что вектор параметров уравнения регрессии a_* может быть найден как результат решения матричного уравнения

a_* = (D'D)^-1D'Y . (3.17)

Матрица DD' включает суммы значений X_i, суммы их квадратов и смешанных произведений по всем N наблюдениям

N SX_1i SX_2i ... SX_m_i

SX_1i SX_1i² SX_1iX_2i ... SX_1iX_{m i}

D'D = SX_2i SX_1iX_2i SX_2i² ... SX_2iX_mi. . (3.18)

... ... ... ... ...

SX_m_i SX_1iX_{m i} SX_2iX_{m i} ... SX_m_i²

Решение системы уравнений (3.17) дает вектор параметров уравнения регрессии.

3.5 При рассмотрении уравнения прямолинейной регрессии часто бывает необходимо определить какие из признаков X₁, X₂, ..., X_m связаны с переменной Y тесно, а для каких из них эта корреляция мала. Некоторое представление об этом можно составить по коэффициентам множественной регрессии a₁, a₂, ..., a_m. Действительно, небольшая абсолютная величина коэффициента a_i у некоторого признака X_i может свидетельствовать о слабом его участии в множественной связи независимых переменных и признака Y. Напротив, высокие абсолютные величины коэффициентов множественной регрессии позволяют надеяться на значительный вклад соответствующих признаков в суммарную связь.

Вместе с тем, суждение об участии каждого отдельного независимого признака в множественной связи, опирающееся на коэффициенты регрессии a₁, a₂, ..., a_m не всегда может быть надежным. Во-первых, величина каждого из них (a_i) кроме степени участия в множественной связи зависит также и от величины среднего квадратического отклонения соответствующего признака X_i. Поэтому, у признаков X_i с высокой изменчивостью абсолютная величина коэффициентов множественной регрессии при прочих равных условиях также будет в среднем выше. Во-вторых, коэффициенты a₁, a₂, ..., a_m - именованные величины, и в силу этого зависят от единиц измерения признаков X_i. Если в наборе независимых переменных присутствуют признаки, измеренные в разных шкалах (см, кг и др.), то коэффициенты множественной регрессии трудно сопоставлять друг с другом по величине.

Этих затруднений легко избежать, если использовать уравнение множественной регрессии для нормированных форм варьирования признаков у_j и x_ij

Y_j - M_y X_ij - M_i

у_j = и x_ij = ,

s_y s_i

- 37 -

где Y_j - ненормированное значение признака Y у j-го наблюдения, X_ij - аналогичное значение i-го независимого признака у j-го наблюдения, M_y и M_i - средние арифметические величины признака Y и независимой переменной X_i, s_y и s_i - аналогичные величины средних квадратических отклонений.

Тогда формула (3.8), записанная для ковариационной матрицы, преобразуется в случай для матрицы корреляционной

1 r ₁₂ r₁₃ ... r_1mr_1y

r₁₂1 r₂₃ ... r_2mr_2y

r₁₃ r₂₃ 1 ... r_3mr_3yR_x R_xy

R = ... ... ... ... ... ... = . (3.19)

r_1mr_2m r_3m ... 1 r_my R_xy' 1

r_1y r_2y r_3y ... r _m_y 1

Здесь: R_x - корреляционная матрица набора независимых переменных X, R_xy - столбец коэффициентов корреляции между признаками X₁, X₂, ..., X_m и зависимой переменной Y, R_xy'- строка, состоящая из тех же самых корреляций, что и столбец R_xy.

В этом случае уравнение множественной регрессии (3.3) приобретет свой частный вид

y_^i = b₁x_1i + b₂x_2i + ... + b_mx_m_i , (3.20)

где используются нормированные значения признаков y, x₁, x₂, ..., x_m . Коэффициенты b₁, b₂, ... , b_m составляющие вектор b, называются стандартизованными коэффициентами множественной регрессии. Их значения можно получить по формуле, являющейся частным случаем равенства (3.9)

b= R_x^-1R_xy , (3.21)

а квадрат коэффициента множественной корреляции - из аналога выражения (3.10)

R² = R_xy'b . (3.22)

Значение R² оказывается одинаковым, независимо от того, найдено ли оно по формуле (3.10) или из (3.22), а между стандартизованными b_i и обычными a_i коэффициентами множественной регрессии для каждого i-го признака X_i существует простое соотношение

s_y

a_i = b_i , (3.23)

s_i

где s_y и s_i - средние квадратические отклонения зависимой переменной Y, и независимого признака X_i .

Таким образом, зная обычные коэффициенты множественной регрессии a_i , можно легко найти стандартизованные коэффициенты b_i, по абсолютным значениям которых можно точно судить о величине вклада каждого признака X_i в множественную связь.

<1 234 5 6 7 >

Дата добавления: 2016-02-13; просмотров: 751;