Проверка гипотез

В медико-биологических исследованиях актуальной является задача сравнения выборок, полученных в результате эксперимента, заключающегося в том или ином воздействии на объект. Фактически конечный результат исследования зависит от достоверности различий значений случайной величины в контроле (до воздействия или без него) и опыте (после воздействия). Наиболее просто решается задача определения достоверности различий статистических распределений, если предварительно для выборок рассчитаны доверительные интервалы. Положим, есть два статистических распределения некоторых случайных величин X и У. Пусть генеральные средние этих распределений с доверительной вероятностью р = 0,95 находятся в доверительных интервалах (х_в ± е_х) и (у_в ± s ), и пусть при этом у_в > х_в. Если соблюдается неравенство (г/_в - ε ) > (х_в + ε), то не вызывает сомнения, что случайная величина У существенно больше случайной величины X (см. рис. 3.3, а). Вероятность этого превышает 0,95.

На рис. 3.3, б представлен вариант, когда выборки частично пересекаются, т. е. когда выполняется неравенство (у_в - е_у) < (х_в + г_х). В этом случае целесообразно оценивать достоверность различий выборочных средних х_в и у_в с помощью дополнительных расчетов. Наиболее просто это сделать, предполагая, что случайные величины X и У распределены по нормальному закону. Условием существенности различия двух опытных распределений, являющихся выборками из различных генеральных совокупностей, является выполнение следующего неравенства для опытного и теоретического значений критерия Стьюдента: t_oa > t_eop. Для нахождения значения t_ов используют следующую формулу:

Здесь σ_х и σ_y — выборочные средние квадратические отклонения, п_х и п_у — число вариант в выборках (объемы выборок), х_в и y_в — выборочные средние значения.

Теоретическое значение t_Teop находят по таблице 10, входными величинами которой являются доверительная вероятность р и параметр , связанный с числом вариант в выборках. Этот параметр определяют следующим образом. Если а_х ≈σ , то f = п_х + п - 2. Если же а_х и а различаются на порядок и более, то величина определяется по формуле:

Используя этот способ оценки достоверности различия выборочных средних значений двух выборок, следует придерживаться такой последовательности действий. Во-первых, по экспериментальным данным нужно найти значения выборочных средних и средних квадратических отклонений для каждой выборки. Затем, сравнив величины σ_х и σ_y, найти величину f. После этого следует задать определенное значение доверительной вероятности и по таблице 10 найти t_теор. Затем по формуле (3.30) рассчитать i_on.

Если при сравнении теоретического и опытного критериев Стьюдента окажется, что t_ou > t_Teop, то различие между выборочными средними значениями случайных величин X и Y можно считать существенным с заданной доверительной вероятностью. В противоположном случае различия несущественны.

Представленный выше способ оценки достоверности различий выборок по выборочным средним является довольно простым. Существует большое число тестов и критериев для сравнения выборок и составления заключения о достоверности их различий. Как правило, при этом рассматривают вероятность двух взаимоисключающих гипотез. Одна из них, условно называемая «нулевой» гипотезой, заключается в том, что наблюдаемые различия между выборками случайны (т. е. фактически различий нет). Альтернативная гипотеза означает, что наблюдаемые различия статистически достоверны. При этом для оценки обоснованности вывода о достоверности различий используют три основных доверительных уровня, при которых принимается или отвергается нулевая гипотеза. Первый уровень соответствует уровню значимости (3₀ < 0,05) для второго уровня р_о < 0,01. Наконец, третий доверительный уровень имеет р₀ < 0,001. При соблюдении соответствующего условия нулевая гипотеза считается отвергнутой. Чем выше доверительный уровень, тем более обоснованным он считается. Фактически значимость вывода соответствует вероятности р = 1 . В медицинских и биологических исследованиях считают достаточным уже первый уровень, хотя наиболее ответственные выводы предпочтительнее делать с большей точностью. Одной из методик, позволяющих судить о достоверности различий статистических распределений, является ранговый тест Уилкоксона. Под рангом (R_i) понимают номер, под которым стоят исходные данные в ранжированном ряду. Если в двух сравниваемых выборках данному номеру соответствуют одинаковые варианты, то рангом этих вариант является среднее арифметическое двух рангов — данного и следующего за ним (см. пример). Покажем, как используется этот тест на примере сравнения двух равных по объему выборок.

Измеряли массу 13 недоношенных новорожденных (в граммах) в двух районах А и Б большого промышленного центра, один из которых (Б) отличался крайне неблагоприятной экологической обстановкой. Получены два статистических распределения (А) и (Б):

А: 970 990 1080 1090 1110 1120 ИЗО 1170 1180 1180 1210 1230 1270

Б: 780 870 900 900 990 1000 1000 1020 1030 1050 1070 1070 1100

Следует решить вопрос о том, достоверны ли различия между этими статистическими распределениями.

Составим общий ранжированный ряд с указанием номеров соответствующих вариант (R_A _Б) — рангов (строки А и Б соответствуют выборкам):

Как видно, варианта 990 встречается в первой и второй выборках, поэтому для нее рангом является среднее арифметическое значение 6 и 7.

Далее в ряду остаются лишь варианты первой выборки, поэтому ряд не закончен. Нулевая гипотеза состоит в том, что различий между выборками нет (они случайны и потому несущественны). Ранговый тест учитывает общее размещение вариант и размеры выборок, но не требует знания типа распределения. Основной вывод о верности нулевой гипотезы делается на основании анализа минимальной суммы рангов (из двух сумм для сравниваемых выборок), т. е. критерием является величина Т = Я_Б(учитывая, что R_в < Z -R_A). При этом пользуются специальными таблицами. В частности, если число вариант в выборках одинаково (п₁ = п₂).

Критические значения величины r (теста Уилкоксона) при п₁ = п₂ = п для разных значений уровня значимости/

В этой таблице указаны две входные величины: число вариант в выборках и значение третьего и второго уровней значимости (Р_о = 0,05 и 0,01). В нашем случае Т = R_B = 110,5, что меньше табличного значения для п = 13 и β_о < 0,01. Следовательно, на втором уровне значимости (р > 0,99) можно отвергнуть нулевую гипотезу. Таким образом, различия выборок достоверны с вероятностью, превышающей 0,99.

<9 10 111213 14 15 >

Дата добавления: 2015-03-03; просмотров: 717;