Понятия множественной корреляции и регрессии
3.2 В многомерном случае ситуация значительно осложняется. Теперь необходимо изучить связь признака Y не с одним признаком X, а с целым их набором X1, X2, X3, ..., Xm. В этой ситуации признак Y называется зависимой переменной, а набор признаков X - набором независимых показателей.
Действуя по аналогии, можно попытаться описать форму связи с применением прямолинейного уравнения
Y^i = ao + a1X1i + a2X2i + ... + amXm i , (3.3)
где ao - свободный член, a1, a2, ..., am - набор коэффициентов прямолинейной регрессии, X1i , X2i , ... , Xm i - индивидуальные значения m признаков X у i-го индивида. Теснота связи может быть измерена корреляционным показателем
Syo2
R2 = 1 - , (3.4)
Sy2
сходным по конструкции с индексом корреляции. Здесь Syo2 - остаточная дисперсия признака Y, находимая по значениям регрессионных остатков
ui = Y^i - Yi . (3.5)
Показатель тесноты многомерной связи R, находимый по формуле (3.4), называется коэффициентом множественной корреляции, а уравнение (3.3) - уравнением множественной регрессии.
Остаточная вариация признака Y нескоррелирована с независимыми признаками X. Отношение Syo2/ Sy2, определяющее величину коэффициента множественной корреляции может быть истолковано как доля остаточной вариации признака Y в его общей изменчивости. Поэтому, квадрат коэффициента множественной корреляции (3.4) может быть интерпретирован как доля изменчивости признака Y, обусловленная влиянием на него признаков X1, X2, X3, ..., Xm.. Этот квадрат называется коэффициентом множественной детерминации переменной Y независимыми признаками Xi.
Для получения значений коэффициентов прямолинейной регрессии a1, a2, ..., am из уравнения (3.4) можно воспользоваться методом наименьших квадратов. В соответствии с его требованиями эти коэффициенты должны быть найдены так, чтобы сумма квадратов отклонений индивидуальных значений Yi от соответствующих им регрессионных величин Y^i была бы минимальной. Иными словами, эти коэффициенты должны быть найдены так, чтобы
- 34 -
N N
S ui2 = S (Y^i - Yi)2 = min . (3.6)
i = 1 i = 1
Остаточная дисперсия определяется в виде
1 N
Syo2 = S (Y^i - Yi)2 , (3.7)
N - 1 i = 1
и условие (3.6) приводит к требованию Syo2 = min. Это влечет за собой достижение максимальной величины корреляционного показателя (3.4), т.е. - R2 = max. Таким образом, параметры уравнения множественной регрессии a1, a2, ..., am должны быть найдены так, чтобы соответствующая ему остаточная дисперсия была бы минимальной, а коэффициент множественной корреляции – максимальным.
3.3 Решение поставленной задачи поиска значений параметров уравнения прямолинейной регрессии может быть осуществлено следующим образом. Пусть для набора признаков X мы ищем некоторый новый признак как их линейную комбинацию
z = c'X = c1X1 + c2X2 + ... + cmXm
Пусть также свойства этого нового признака z и набор определяющих его коэффициентов c1,. c2, ... cm должны быть такими, что его коэффициент корреляции с признаком Y должен быть максимально большим.
Этот коэффициент корреляции rzY можно найти следующим образом. В соответствием со структурой набора рассматриваемых признаков, состоящего из двух частей - Y и X, ковариационная матрица естественным способом разбивается на четыре блока
s11 s12 s13 ... s1m | s1y
s12 s22 s23 ... s2m s2y
s13 s23 s33 ... s3m s3y Sx Sxy
S = ... ... ... ... ... ... = . (3.8)
s1m s2m s3m ... smm smy Sxy' syy
s1y s2y s3y ... smy syy
Здесь: Sx - ковариационная матрица набора независимых переменных X, Sxy - столбец ковариаций между признаками X1, X2 , ... , Xm и зависимой переменной Y, Sxy'- строка, состоящая из тех же самых ковариацией, что и столбец Sxy, syy - дисперсия признака Y.
В соответствии с такой структурой ковариационной матрицы дисперсия нового признака z может быть по формуле (1.17) найдена как sz2 = c'Sxc. Ковариацию линейной комбинации z и признака Y можно найти по формуле
cov(zY) = c'Sxy = c1s1y + c2s2y + ... + cmsmy,
и тогда коэффициент корреляции z и Y определится из равенства
c'Sxy
rzY = .
syy (c'Sxc)1/ 2
Его величина будет зависеть от набора коэффициентов c. Разумеется, эти коэффициенты должны быть выбраны таким образом, чтобы величина rzY была бы максимальной.
- 35 -
В многомерной статистике доказывается, что это условие достигается, если набор коэффициентов c находится из равенства
c= Sx-1Sxy . (3.9)
При этом c состоит из коэффициентов множественной регрессии
c' = a' = a1 a2 a3 ... am ,
входящих в уравнение (3.3), а показатель rzY равен коэффициенту множественной корреляции R, квадрат которого можно получить по формуле
Sxy'a
R2 = . (3.10)
syy
Свободный член уравнения (3.3) можно найти из равенства
ao = My - a1M1 - a2M2 - ... - amMm , (3.11)
где My - средняя арифметическая величина признака Y, а M1 , M2 , ... , Mm - аналогичные средние признаков X1, X2, ..., Xm.
3.4 При вычислениях параметров регрессионных уравнений с использованием компьютерных программ обычно применяется следующий ход действий. В многомерном случае регрессионная модель (3.2), записанная для некоторого i-го наблюдения, приобретает форму
Yi = ao + a1X1i + a2X2i + ...+ amXmi + ui, (3.12)
что также можно записать в матричном виде
Yi = ao + a'X + ui. (3.13)
Введем вектор a*', включающий значения всех параметров регрессионного уравнения - свободный член ao и набор коэффициентов регрессии - a
a*' = ao a1 a2 a3 ...am = ao | a'. (3.14)
Регрессионная модель (3.12) для отдельного наблюдения может быть также выписана для всех N случаев одновременно, если принять, что вектор
Y' = Y1 Y2 Y3 ... YN
содержит значения зависимой переменной для этих случаев. Кроме этого вводится специальная матрица D, называемая матрицей плана. Она включает значения всех назависимых переменных Xij у всех N наблюдений, к которым слева приписан столбец, состоящий из единиц, то есть -
1 X11 X21 X31 ... Xm1
1 X12 X22 X32 ... Xm2
D = 1 X13 X23 X33 ... Xm3 . (3.15)
... ... ... ... ... ...
1 X1N X2N X3N ...XmN
Тогда для всех N индивидуальных случаев регрессионная модель имеет матричный вид
Y = Da* + u, (3.16)
- 36 -
где вектор uсодержит регрессионные остатки для всех N наблюдений
u' = [ u1 u2 u3 ... uN ]
В многомерной статистике доказывается, что условие метода наименьших квадратов (3.6)
N
S ui2 = min
i = 1
приводит к тому, что вектор параметров уравнения регрессии a* может быть найден как результат решения матричного уравнения
a* = (D'D)-1D'Y . (3.17)
Матрица DD' включает суммы значений Xi, суммы их квадратов и смешанных произведений по всем N наблюдениям
N SX1i SX2i ... SXm i
SX1i SX1i2 SX1iX2i ... SX1iXm i
D'D = SX2i SX1iX2i SX2i2 ... SX2iXmi. . (3.18)
... ... ... ... ...
SXm i SX1iXm i SX2iXm i ... SXm i2
Решение системы уравнений (3.17) дает вектор параметров уравнения регрессии.
3.5 При рассмотрении уравнения прямолинейной регрессии часто бывает необходимо определить какие из признаков X1, X2, ..., Xm связаны с переменной Y тесно, а для каких из них эта корреляция мала. Некоторое представление об этом можно составить по коэффициентам множественной регрессии a1, a2, ..., am. Действительно, небольшая абсолютная величина коэффициента ai у некоторого признака Xi может свидетельствовать о слабом его участии в множественной связи независимых переменных и признака Y. Напротив, высокие абсолютные величины коэффициентов множественной регрессии позволяют надеяться на значительный вклад соответствующих признаков в суммарную связь.
Вместе с тем, суждение об участии каждого отдельного независимого признака в множественной связи, опирающееся на коэффициенты регрессии a1, a2, ..., am не всегда может быть надежным. Во-первых, величина каждого из них (ai) кроме степени участия в множественной связи зависит также и от величины среднего квадратического отклонения соответствующего признака Xi. Поэтому, у признаков Xi с высокой изменчивостью абсолютная величина коэффициентов множественной регрессии при прочих равных условиях также будет в среднем выше. Во-вторых, коэффициенты a1, a2, ..., am - именованные величины, и в силу этого зависят от единиц измерения признаков Xi. Если в наборе независимых переменных присутствуют признаки, измеренные в разных шкалах (см, кг и др.), то коэффициенты множественной регрессии трудно сопоставлять друг с другом по величине.
Этих затруднений легко избежать, если использовать уравнение множественной регрессии для нормированных форм варьирования признаков уj и xij
Yj - My Xij - Mi
уj = и xij = ,
sy si
- 37 -
где Yj - ненормированное значение признака Y у j-го наблюдения, Xij - аналогичное значение i-го независимого признака у j-го наблюдения, My и Mi - средние арифметические величины признака Y и независимой переменной Xi, sy и si - аналогичные величины средних квадратических отклонений.
Тогда формула (3.8), записанная для ковариационной матрицы, преобразуется в случай для матрицы корреляционной
1 r 12 r13 ... r 1m r1y
r12 1 r23 ... r2m r2y
r 13 r23 1 ... r3m r3y Rx Rxy
R = ... ... ... ... ... ... = . (3.19)
r1m r2m r 3m ... 1 r my Rxy' 1
r1y r2y r3y ... r my 1
Здесь: Rx - корреляционная матрица набора независимых переменных X, Rxy - столбец коэффициентов корреляции между признаками X1, X2, ..., Xm и зависимой переменной Y, Rxy'- строка, состоящая из тех же самых корреляций, что и столбец Rxy.
В этом случае уравнение множественной регрессии (3.3) приобретет свой частный вид
y^i = b1x1i + b2x2i + ... + bmxm i , (3.20)
где используются нормированные значения признаков y, x1, x2, ..., xm . Коэффициенты b1, b2 , ... , bm составляющие вектор b, называются стандартизованными коэффициентами множественной регрессии. Их значения можно получить по формуле, являющейся частным случаем равенства (3.9)
b= Rx-1Rxy , (3.21)
а квадрат коэффициента множественной корреляции - из аналога выражения (3.10)
R2 = Rxy'b . (3.22)
Значение R2 оказывается одинаковым, независимо от того, найдено ли оно по формуле (3.10) или из (3.22), а между стандартизованными bi и обычными ai коэффициентами множественной регрессии для каждого i-го признака Xi существует простое соотношение
sy
a i = b i , (3.23)
s i
где sy и s i - средние квадратические отклонения зависимой переменной Y, и независимого признака X i .
Таким образом, зная обычные коэффициенты множественной регрессии a i , можно легко найти стандартизованные коэффициенты bi, по абсолютным значениям которых можно точно судить о величине вклада каждого признака Xi в множественную связь.
Дата добавления: 2016-02-13; просмотров: 706;