Проверка гипотезы о связи на на основе
критерия c2 (хи-квадрат)
Одним из основных приложений критерия c2 является его использование при анализе таблиц сопряженности двух переменных для установления факта наличия и уровня значимости взаимосвязи. Как правило, критерий у2 применяется для анализа таблиц сопряженности номинальных признаков, однако" он может быть использован и при анализе взаимосвязи порядковых или интервальных (количественных) переменных, несмотря на то, что для последних . случаев существуют более мощные тесты.
Рассмотрим общий случай - таблицу сопряженности двух переменных размером r ´ s. Обозначим:
nij - наблюдаемая частота (число объектов) в ячейке (ij) таблицы, так называемая фактическая клеточная частота; n̂ij - теоретически ожидаемая (по Н0) частота в этой ячейке, i = 1, 2, ..., r, j = 1, 2, ..., s; r - число строк, s - число столбцов.
-сумма по j-й строке маргинальные частоты
- сумма по j-у столбцу (7.31)
- общее число объектов или объем выборки.
В этом случае испытуемая гипотеза Н0: nij ≠ n̂ij или Н0 : c2 =0, альтернативная гипотеза H1: nij ≠ n̂ij . Критерий c2 для проверки Н0 имеет вид:
. (7.32)
Расчет теоретически ожидаемых частот в ячейках таблицы сопряженности должен производиться, как мы уже указывали выше, в предположении справедливости нулевой гипотезы. Нуль-гипотеза (Н0) в данном случае есть предположение о статистической независимости рассматриваемых переменных. Как известно из теории вероятностей, две случайные величины (события) являются статистически независимыми, если вероятность их совместной реализации равна произведению вероятностей реализации каждой из них по отдельности, т. е.
,
где
В нашем случае выборочными оценками соответствующих вероятностей p будут являться величины р(хi, хj) = пij/п,
и поэтому расчет теоретически ожидаемой по Н0 частоты п̂ij следует производить по формуле
(7.33)
т. е. произведение итогов по столбцу и строке, деленное на общий объем данных.
Если подставить выражение п̂ij в формулу (7.32), то получим
(7.34)
Используя эту формулу, мы можем находить эмпирические значения критерия c2 без промежуточного вычисления теоретических частот в явном виде.
Очевидно, что для определения эмпирического значения критерия c2 нет необходимости рассчитывать все s теоретических частот в каждой строке, а достаточно найти лишь s - 1 значение частоты в r - 1 строке, так как оставшиеся частоты могут быть получены как разности между маргинальными суммами эмпирических частот и суммами известных теоретических частот, т. е. значения теоретических частот в последних строке и столбце таблицы всегда полностью детерминированы. Поэтому число степеней свободы для r ´ s таблицы сопряженности равно:
d.f.= (r - 1) (s -1). (7.35)
Заметим, что для таблицы 2´2 число степеней свободы равно 1.
В таблице распределения статистики c2d.f.a приведены значения этой величины для различных уровней значимости при различных числах степеней свободы (см. приложение, табл. 4). Например, на уровне a = 0,01 для d.f. = 1 мы находим c2 = 10,827. Это означает, что равное или большее значение этой величины c2 может встретиться только один раз из тысячи при условии, что все сделанные допущения (нуль-гипотеза) справедливы. Другими словами, если выполняется предложение об отсутствии взаимосвязи между переменными, то крайне маловероятно (Р < 0,001), что наблюдаемые и ожидаемые частоты будут отличаться настолько, что фактическая величина c2 будет равной или большей 10,827. Если же c2ф ³ c2d.f.a, то гипотеза Н0 на данном уровне значимости а может быть отвергнута.
Вероятность того, что, отвергая нулевую гипотезу, мы совершаем ошибку (первого рода), которая численно равна уровню значимости о., задаваемому при проверке гипотезы.
Интерпретация c2 теста зачастую усложняется, когда в таблице сопряженности имеются ячейки с нулевыми значениями наблюдаемых частот. Дело в том, что если пара (хi, хj) значений переменных не наблюдалась в выборке, то это может означать, что объем выборки не столь велик, чтобы зафиксировать такую редкую комбинацию, либо что данная комбинация невозможна по каким-то объективным причинам. В последнем случае действительное число степеней свободы анализируемой системы меньше числа степеней свободы таблицы сопряженности, на основании которого произведена оценка уровня значимости c2 теста.
Корректировка применения c2 теста возможна лишь в том случае, если эмпирические данные, наполняющие таблицу сопряженности, есть результаты независимой случайной выборки относительно большого объема п. Последнее требование вызвано тем, что выборочное распределение c2 аппроксимирует табличное распределение статистики c2 только при больших п. Естественно, возникает вопрос о том, насколько велико должно быть п, чтобы иметь возможность использовать данный тест. Ответ на этот вопрос зависит от числа ячеек и величин маргинальных сумм. Вообще говоря, чем меньше число ячеек и чем более близки между собой по величине маргиналы, тем меньше может быть п. Существует, однако, практическое число, позволяющее оценить снизу по п диапазон возможного применения критерия c2 : если в данной таблице сопряженности любая из теоретических ожидаемых частот п̂ij в ячейке (i, j) не больше 5, то рекомендуется произвести, если это возможно, модификацию таблицы либо воспользоваться другим критерием.
В общем случае корректировка таблицы размера r ´ s затруднительна. Практика показала, что если число ячеек велико, а ожидаемые частоты, равные или меньше пяти, встречаются лишь в одной-двух ячейках, то проведение корректировки нецелесообразно; во всех иных случаях разумной альтернативой является объединение категорий (градаций) с тем, чтобы элиминировать подобные ячейки. Естественно, такое объединение должно быть таким, чтобы получаемая в результате комбинация не была содержательно бессмысленной.
Пример. Согласно опросу 157 предпринимателей, работающих в приватизированных кафе и ресторанах, относительно оценки возможностей деятельности при разных формах собственности получены следующие данные (табл. 7.7).
Таблица 7.7
Дата добавления: 2015-01-21; просмотров: 865;