Пошаговая регрессия

 

3.10 При проведении множественного регрессионного анализа обычно заранее неизвестно какие признаки значительно участвуют в рассматриваемой связи. Поэтому, часто в набор независимых переменных включают максимально большое число признаков X, стремясь при этом не упустить те из них, которые действительно вносят заметный вклад в регрессионную модель. Однако, при этом может получиться весьма громоздкий результат, который не так просто интерпретировать и еще сложнее использовать на практике, если уравнение регрессии строится как оценочное. Поэтому, необходимы методы, которые позволяют целенаправленно получать уравнение регрессии, опирающееся только на те независимые переменные, которые действительно значительно участвуют в множественной связи. Эти подходы называются методами пошаговой регрессии. Стандартная пошаговая процедура отбора наиболее информативных независимых переменных организована в виде последовательно выполняемых одинаковых этапов, на каждом из которых в набор этих переменных включается очередной признак. Такой шаг реализуется следующим образом.

Пусть на предыдущих этапах в набор информативных признаков уже были включены k переменных X. Шаг начинается с того, что для всех остальных m - k признаков X вычисляются частные коэффициенты корреляции с зависимым показателем Y, полученные при условии, что влияние на эти связи k уже включенных переменных X устранено.

 

- 44 -

Как это известно из элементарной статистики, частный коэффициент корреляции между признаками Y и Xi (обозначим его как - ryi.j), найденный при условии исключения влияния на эту связь третьего признака Xj находится по формуле

ryi - ryj rij

ryi.j = ,

((1 - ryj2)(1 - rij2))1/ 2

где ryi, ryj и rij - коэффициенты корреляции между признаками Y и Xi, Y и Xj, Xi и Xj соответственно. Частная корреляция между признаками Y и Xi (т.е. - ryi.jt), найденная при условии исключения влияния на эту связь двух других признаков Xj и Xt, находится по сходной формуле

ryi.t - ryj.t rij.t

ryi.jt = ,

((1 - ryj.t2)(1 - rij.t2))1/ 2

где - ryi.t - ryj.t rij.t - коэффициенты частной корреляции между признаками Y и Xi, Y и Xj, Xi и Xj, найденные при условии исключения влияния на эти связи признака Xt. Аналогичным способом можно исключить влияние на некоторую парную связь любого количества признаков.

Итак, в начале очередного шага для всех m - k еще невключенных в регрессионную модель признаков X находятся все частные коэффициенты корреляции с зависимым показателем Y, полученные при условии, что устранено влияние на эти связи k уже добавленных в модель переменных X. Из всех этих частных коэффициентов корреляции выбирается - наибольший по абсолютной величине. Пусть значение этого максимального частного коэффициента связи равно ryi.k и пусть оно найдено для признака Xi. После определения ryi.k проверяется гипотеза о равенстве этой частной корреляции нулю. Такая проверка осуществляется с применением так называемого F-критерия включения

ryi.k2 (N - k - 2)

F = , (3.27)

1 - ryi.k2

который при заведомой справедливости нулевой гипотезы имеет F-распределение Фишера с числом степеней свободы n1 = 1, n2 = N - k - 2. Если вероятность ошибки 1-го рода, соответствующая величине критерия включения, меньше стандартного уровня a (0.05, 0.01, 0.001), нулевая гипотеза отвергается и признак Xi включается в набор информативных независимых переменных. В противном случае делается вывод о том, что среди оставшихся еще невключенными m - k переменных X больше нет ценных показателей, способных улучшить точность регрессионного уравнения и увеличить величину соответствующей ему множественной связи.

После увеличения набора информативных признаков на показатель Xi проверяется предположение о возможности исключения какого-то из них из регрессионной модели. Для этой цели по каждому из k + 1 уже включенных ценных независимых переменных находится частный коэффициент корреляции с переменной Y, полученный при условии, что влияние k других информативных признаков исключено. Пусть такие частные коэффициенты равны ryi.k*. После этого для каждого из уже включенных информативных признаков X находится так называемый F-критерий удаления (исключения)

 

- 45 -

ryi.k*2 (N - k - 2)

F = . (3.28)

1 - ryi.k*2

С его помощью проверяется предположение, что при исключении признака Xi остальные k информативных показателей совместно обеспечат столь же высокую множественную связь. При заведомой справедливости этого предположения этот критерий имеет F-распределение Фишера с числом степеней свободы n1 = 1, n2 = N - k - 2. Если вероятность ошибки 1-го рода, соответствующая величине критерия включения, больше стандартного уровня a (0.05, 0.01, 0.001), нулевая гипотеза сохраняется, и признак Xi исключается из набора независимых переменных.

Таким образом, типичный шаг процедуры отбора информативных независимых переменных предполагает: а) проверку возможности включения одной новой такой переменной; б) проверку возможности исключения из числа уже вошедших в регрессионную модель признаков X каких-то показателей. Такие шаги повторяются до тех пор, пока из оставшихся невключенными переменных X оказывается невозможным добавить какую-то в регрессионную модель. Для реализации правил включения-исключения, основанных на соответствующих F-критериях (3.27-3.28) обычно бывает необходимо задать их критические значения. Обычно, по умолчанию в компьютерных программах предполагается, что критическая величина F-критерия включения равна 4.0. Она соответствует табличной величине F-распределения Фишера при вероятности a = 0.05 и числах степеней свободы n1 = 1 и n2 = 60. При ее превышении реальным значением F-критерия включения (3.27) происходит добавление очередного информативного признака в регрессионную модель. Аналогичным образом, часто по умолчанию для критической величины F-критерия исключения принимается значение 3.9.

Стандартная процедура пошаговой регрессии не является единственной из возможных. Но именно она обычно реализована в различных пакетах статистических компьютерных программ. С другими методами пошагового отбора можно познакомиться, например, в книгах Н.Дрейпера и Г.Смита (1973) или А.Афифи и С.Эйзена (1982).

 

Пример 3.2 Рассмотрим на материалах примера 3.1 осуществление пошаговой множественной регрессии для связи диаметра таза с 20 размерами тела по выборке 242 женщин. На нулевом шаге для всех 20 признаков были найдены обычные коэффициенты корреляции с тазовым диаметром (табл.3.3). Наибольшая теснота связи была найдена для обхвата бедра. Ей соответствует величина F-критерия включения 93.9, которой соответствует практически нулевая вероятность ошибки 1-го рода. Таким образом, в набор информативных переменных включен обхват бедра. Затем, проверялась возможность его исключения, которой соответствовала также нулевая вероятность ошибки, чему соответствует необходимость его сохранения в регрессионной модели на этом шаге процедуры.

На первом шаге (табл.3.4) были вычислены значения частных коэффициентов корреляции 19 остальных признаков с диаметром таза при устранении влияния обхвата бедра. Наибольшая частная связь с тазовым диаметром (0.327) найдена для обхвата груди. Величине F-критерия включения для этого признака - 28.7 соответствует практически нулевая вероятность ошибки и этот признак добавляется в регрессионную модель. Множественная связь для двух независимых переменных характеризуется коэффициентом множе-

- 46 -

Таблица 3.3. Результаты применения процедуры пошаговой регрессии для множественной связи диаметра таза с другими размерами тела. Нулевой шаг

 

Признаки Коэффициент корреляции F- критерий включения P
Обхват бедра 0.530 * 93.851 0.000*
Признаки - F-критерий исключения P
Обхват бедра - 93.851 0.000

 

ственной корреляции R = 0.530. При нахождении значений F-критерия исключения для обхвата бедра была найдена величина 2.488, которой соответствует слишком высокая вероятность ошибки 0.116. Таким образом, этот признак может быть исключен из регрессионной модели.

На втором шаге процедуры были найдены значения частных коэффициентов корреляции для 18 признаков и диаметра таза при условии устранения влияния обхватов бедра и груди (табл.3.5). Максимальная частная связь (0.306) была найдена для длины ноги. Величине F-критерия включения - 24.6 соответствует практически нулевая вероятность ошибки и этот признак включается в регрессионную модель, которой соответствует множественная корреляция R = 0.598. При проверке возможности уменьшения набора независимых переменных для F-критерия исключения у обхвата бедра (1.817) была получена слишком большая вероятность ошибки 0.179 > 0.05, и этот признак опять продемонстрировал избыточность своего присутствия в наборе информативных независимых переменных. Его без существенных потерь в точности регрессионной модели можно исключить из нее.

Третий шаг (табл.3.6) нашел наибольшую величину частной корреляции у ширины лодыжки. Вероятность ошибочного включения этого признака (0.050) находится на грани допустимого и этот признак может пополнить набор независимых переменных. Уравнение множественной регрессии, опирающееся на четыре признака X, характеризуется увеличением множественной корреляции до уровня R = 0.647. При вычислении F-критериев исключения, возможность удаления была опять найдена для обхвата бедра.

 

Таблица 3.4. Результаты применения процедуры пошаговой регрессии для множественной связи диаметра таза с другими размерами тела. Первый шаг

 

Признаки Коэффициент корреляции F- критерий включения P
Обхват груди 0.327 * 28.663 0.000*
Признаки - F-критерий исключения P
Обхват бедра - 2.488 0.116*
Обхват груди - 28.663 0.000

- 47 -

Таблица 3.5. Результаты применения процедуры пошаговой регрессии для множественной связи диаметра таза с другими размерами тела. Второй шаг

 

Признаки Коэффициент корреляции F- критерий включения P
Длина ноги 0.306 * 24.595 0.000*
Признаки - F-критерий исключения P
Длина ноги - 24.595 0.000
Обхват бедра - 1.817 0.179*
Обхват груди - 28.752 0.000

 

На четвертом шаге по максимальной величине частной корреляции, которой соответствует значение F-критерия включения 4.2 , с вероятностью ошибки 0.042 < 0.05 в набор ценных признаков была включена длина корпуса. Это привело к дальнейшему увеличению множественной корреляции до уровня R = 0.654. Для обхвата бедра и на этом шаге продемонстрирована возможность его исключения из регрессионной модели.

На пятом шаге процедуры (табл.3.8) максимальная величина частной корреляции с шириной таза была найдена для жировой складки на животе, которой, однако, соответствует слишком малая величина F-критерия включения, сопровождающаяся слишком большой вероятностью ошибки 0.057 > 0.05. Процесс отбора информативных переменных в регрессионную модель завершен.

В результате в набор ценных информативных признаков вошли: длина корпуса, длина ноги, ширина лодыжки и обхват груди. Обхват бедра в соответствии с полученными для него на всех шагах процедуры слишком малыми величинами F-критерия исключения, сопровождающимися высокими вероятностями ошибки, превышающими уровень 0.05, должен быть удален из этого набора. По перечисленным четырем независимым признакам

 

Таблица 3.6. Результаты применения процедуры пошаговой регрессии для множественной связи диаметра таза с другими размерами тела. Третий шаг

 

Признаки Коэффициент корреляции F- критерий включения P
Ширина лодыжки -0.127 * 3.869 0.050*
Признаки - F-критерий исключения P
Длина ноги - 28.244 0.000
Ширина лодыжки - 3.869 0.050
Обхват бедра - 2.595 0.109*
Обхват груди - 30.924 0.000

 

- 48 -

Таблица 3.7. Результаты применения процедуры пошаговой регрессии для множественной связи диаметра таза с другими размерами тела. Четвертый шаг

 

Признаки Коэффициент корреляции F- критерий включения Р
Длина корпуса 0.132 * 4.173 0.042*
Признаки - F-критерий исключения Р
Длина корпуса - 4.173 0.042
Длина ноги - 24.732 0.000
Ширина лодыжки - 5.122 0.025
Обхват бедра - 2.667 0.104*
Обхват груди - 32.425 0.000

 

обычным способом может быть построено окончательное уравнение регрессии, которое будет опираться на предельно малый набор только информативных признаков.

 








Дата добавления: 2016-02-13; просмотров: 2096;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.016 сек.