Статистические гипотезы. Критерии согласия.
Нулевой (основной) называют выдвинутую гипотезу о виде неизвестного распределения, или о параметрах известных распределений. Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.
Например, если нулевая гипотеза состоит в предположении, что случайная величина X распределена по закону , то конкурирующая гипотеза может состоять в предположении, что случайная величина Х распределена по другому закону.
Статистическим критерием (или просто критерием) называют некоторую случайную величину К, которая служит для проверки нулевой гипотезы.
После выбора определенного критерия, например критерия , множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другое - при которых она принимается.
Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают. Критическими точками называют точки, отделяющие критическую область от области принятия нулевой гипотезы.
Для нашего примера, при значении , вычисленное по выборке значение соответствует области принятия гипотезы: случайная величина распределена по закону . Если же вычисленное значение , то оно попадает в критическую область, то есть гипотеза о распределении случайной величины по закону отвергается.
В случае распределения критическая область определяется неравенством , область принятия нулевой гипотезы – неравенством .
2.6.3. Критерий согласия Пирсона.
Одна из задач зоотехнии и ветеринарной генетики – выведение новых пород и видов с требуемыми признаками. Например, повышение иммунитета, резистентность к болезням или изменение окраски мехового покрова.
На практике, при анализе результатов, очень часто оказывается, что фактические результаты в большей или меньшей степени соответствуют некоторому теоретическому закону распределения. Возникает необходимость оценить степень соответствия фактических (эмпирических) данных и теоретических (гипотетических). Для этого выдвигают нулевую гипотезу : полученная совокупность распределена по закону «А». Проверка гипотезы о предполагаемом законе распределения производится при помощи специально подобранной случайной величины – критерия согласия.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Имеется несколько критериев согласия: Пирсона, Колмогорова, Смирнова и д.р. Критерий согласия Пирсона используется наиболее часто.
Рассмотрим применение критерия Пирсона на примере проверки гипотезы о нормальном законе распределения генеральной совокупности. С этой целью будем сравнивать эмпирические и теоретические (вычисленные в продолжении нормального распределения) частоты.
Обычно между теоретическими и эмпирическими частотами есть некоторое различие. Например:
Эмпирические частоты 7 15 41 93 113 84 25 13 5
Теоретические частоты 5 13 36 89 114 91 29 14 6
Рассмотрим два случая:
- расхождение теоретических и эмпирических частот случайно (незначимо), т.е. можно сделать предложение о распределении эмпирических частот по нормальному закону;
- расхождение теоретических и эмпирических частот неслучайно (значимо), т.е. теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности.
С помощью критерия согласия Пирсона можно определить случайно или нет расхождение теоретических и эмпирических частот, т.е. с заданной доверительной вероятностью определить, распределена генеральная совокупность по нормальному закону или нет.
Итак, пусть по выборке объема n получено эмпирическое распределение:
Варианты ……
Эмпирические частоты …….
Допустим, что в предположении нормального распределения вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу : генеральная совокупность распределена нормально.
В качестве критерия проверки нулевой гипотезы примем случайную величину
(*)
Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.
Доказано, что при закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с степенями свободы. Поэтому, случайная величина (*) обозначается через , а сам критерий называют критерий согласия «хи-квадрат».
Обозначим значение критерия, вычисленное по данным наблюдений, через . Табулированные критические значения критерия для данного уровня значимости и числа степеней свободы обозначают . При этом число степеней свободы определяют из равенства , где число групп (частичных интервалов) выборки или классов; - число параметров предполагаемого распределения. У нормального распределения два параметра – математическое ожидание и среднее квадратическое отклонение. Поэтому число степеней свободы для нормального распределения находят из равенства
Если для вычисленного значения и табличного значения выполняется неравенство , принимается нулевая гипотеза о нормальном распределении генеральной совокупности. Если же , нулевую гипотезу отвергают и принимают гипотезу, альтернативную ей (генеральная совокупность не распределена по нормальному закону).
Замечание. При использовании критерия согласия Пирсона объем выборки должен быть не менее 30. Каждая группа должна содержать не менее 5 вариант. Если же в группах окажется менее 5 частот, их объединяют с соседними группами.
В общем случае число степеней свободы для распределения хи-квадрат определяется как общее число величин, по которым вычисляют соответствующие показатели, минус число тех условий, которые связывают эти величины, т.е. уменьшают возможность вариации между ними. В простейших случаях при вычислении число степеней свободы будет равно числу классов, уменьшенному на единицу. Так, например, при дигибридном, расщеплении получают 4 класса, но не связанным получается лишь первый класс, последующие уже связаны с предыдущими. Поэтому для дигибридного расщепления число степеней свободы .
Пример 1. Определить степень соответствия фактического распределения групп по количеству больных туберкулезом коров с теоретически ожидаемым, которое было вычислено при рассмотрении нормального распределения. Исходные данные сведены в таблицу:
Распределение | Количество больных по группам |
1 2 3 4 5 | |
Фактическое Теоретическое | 5 10 20 8 7 6 14 18 7 5 |
Решение. Используя критерий согласия Пирсона вычислим значение :
По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами носит случайный характер. Таким образом, фактическое распределение групп по количеству больных туберкулезом коров соответствует теоретически ожидаемому.
Пример 2. Теоретическое распределение по фенотипу особей, полученных во втором поколении при дигибридном скрещивании кроликов по закону Менделя составляет 9 : 3 : 3 : 1. Требуется вычислить соответствие эмпирического распределения кроликов от скрещивания черных особей с нормальной шерстью с пуховыми животными – альбиносами. При скрещивании во втором поколении было получено 120 потомков, в том числе – 45 черных с короткой шерстью, 30 черных пуховых, 25 белых с короткой шерстью, 20 белых пуховых кроликов.
Решение. Теоретически ожидаемое расщепление в потомстве должно соответствовать соотношению четырех фенотипов (9 : 3 : 3 : 1). Рассчитаем теоретические частоты (количество голов) для каждого класса:
9+3+3+1=16, значит можно ожидать, что черных короткошерстных будет ; черных пуховых - ; белых короткошерстных - ; белых пуховых - .
Эмпирическое (фактическое) распределение по фенотипам было следующим 45; 30; 25; 20.
Сведем все эти данные в следующую таблицу:
Распределение | Фенотип | |
Черные Черные Белые Белые коротко- пуховые коротко- пуховые шерстные шерстные | Всего | |
Фактическое ( ) Теоретическое ( ) | 45 30 25 20 67,5 22,5 22,5 7,5 |
Используя критерий согласия Пирсона вычислим значение :
Число степеней свободы при дигибридном скрещивании . Для уровня значимости находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами является неслучайным. Следовательно, полученная группа кроликов отклоняется по распределению фенотипов от закона Менделя при дигибридном скрещивании и отражает влияние неких факторов, изменяющих тип расщепления по фенотипу у второго поколения помесей.
Критерий согласия хи- квадрат Пирсона можно использовать и для сравнения друг с другом двух однородных эмпирических распределений , т.е. таких, у которых одни и те же границы классов. В качестве нулевой гипотезы принимается гипотеза о равенстве двух неизвестных функций распределения. Критерий хи-квадрат в таких случаях определяется по формуле
(**)
где и - объемы сравниваемых распределений; и - частоты соответствующих классов.
Рассмотрим сравнение двух эмпирических распределений на следующем примере.
Пример 3. Проводился промер длины яиц кукушек по двум территориальным зонам. В первой зоне была обследована выборка из 76 яиц ( ), во второй из 54 ( ). Получены следующие результаты:
Длина (мм) | |||||||||||
Частоты | |||||||||||
Частоты | - | - | - |
При уровне значимости требуется проверить нулевую гипотезу, что обе выборки яиц принадлежат одной популяции кукушек.
Решение. Так как количество классов первого ряда частот отличается от количества классов второго ряда, и к тому же количество вариант в некоторых классах мало, произведем объединение первых двух классов и последних четырех (таблица А) в результате получили 7 классов вместо 11. Преобразуем исходную таблицу, добавив к ней строки с промежуточными результатами вычислений (таблица Б).
Таблица А
Длина (мм) | |||||||||||
Частоты | |||||||||||
Частоты | - | - | - | ||||||||
Таблица Б
Длина (мм) | 40,41 | 47,48,49,50 | |||||
Частоты | |||||||
Частоты | |||||||
- | |||||||
( - ) | |||||||
Используя критерий (**), получим
Число степеней свободы в этом случае будет равно , так как число классов равно 7, а единственным общим элементом двух рядов является одинаковое число классов. По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Так как , нулевая гипотеза, что обе выборки яиц взяты из одной популяции должна быть отвергнута.
Дата добавления: 2016-04-11; просмотров: 1780;