Распределение Стьюдента и критерий Стьюдента.
Так как мы используем для расчета стандартной ошибки и границ доверительного интервала не истинные значения таких параметров как дисперсия и математическое ожидание, а их оценки, то мы не можем получить точные результаты. Однако если использовать t – распределение Стьюдента мы можем скорректировать наши результаты. Распределение Стьюдента похоже на нормальное распределение, но оно зависит только от объема выборки. Форма кривой распределения меняется в зависимости от числа наблюдений. Когда число наблюдений в выборке бесконечно, то t – распределение совпадает с нормальным распределением. Несколько изменим, условия эксперимента, и будем брать выборки из совокупности, имеющей заведомо нормальное распределение в отличие от предыдущего эксперимента. Все значения совокупности можно подвергнуть стандартизации и получить набор величин с математическим ожиданием равным 0 и дисперсией равной 1. Образуем из чисел выборки новую случайную величину - t -
t = (χ-μ)/(S/√n).
Так как μ=0, то эта величина несколько упроститься и будет в числителе состоять только из выборочного среднего. Если мы будем брать многочисленные выборки из нашей совокупности, то при увеличении количества данных в выборках (n), распределение как выборочных средних, так и величины t будет стремиться к нормальному распределению, и форма кривой и значение площади под кривой будет зависеть только от количества данных в выборке (n) и уровня риска. Плотность вероятности случайной величины t вычисляется с помощью гамма функции и указывает на допустимый разброс выборочных средних относительно математического ожидания в зависимости от количества данных в выборке, извлеченной из совокупности данных с заведомо нормальным распределением. Указанная постановка проблемы и решение ее в виде формулы исходят от английского статистика Госсета, который под псевдонимом - Стьюдент опубликовал свои исследования. Поэтому распределение случайной величины t и называют распределением Стьюдента, а правило, по которому выборочное среднее могут отвергнуть, когда величина t , вычисленная в результате эксперимента превосходит критическую величину tα, вычисленную Стьюдентом называют критерием Стьюдента. Критические значения t- критерия при n-1 степеней свободы и заданном уровне риска опубликованы и приведены во всех классических учебниках по статистике. Поэтому критические значения t – критерия используются для корректировки доверительных интервалов, так как для расчета стандартной ошибки или погрешности мы используем не истинное значение дисперсии, которое мы ни когда не узнаем, а ее оценку, полученную по выборочным данным. Кроме этого t –критерии используются для проверки гипотезы о том, что данная выборка взята из совокупности с заданными характеристиками и для проверки гипотезы об однородности двух выборок. В геологоразведочной практике эти гипотезы облечены в вполне конкретные задачи, с которыми сталкиваются и успешно решают специалисты. Пусть, например, нужно проверить гипотезу, заключающуюся в том, что ряд образцов известняка конкретного района взят из совокупности известняков, пористость которых превышает 18%.
Результаты анализов известняков приведены в таблице .
Номер образца | Пористость в %. |
Выборочное среднее равно 21.3 ( χ = 21.3), дисперсия равна 30.46 (S2=30.46), стандартное отклонение равно 5.52 (S=5.52). Допустим, что мы взяли образцы случайным образом из совокупности известняков, пористость которых распределяется по нормальному закону. Тогда вычислим значение t по приведенной формуле.
t = (21.3 – 18)/5.52*(1/10) = 1.89
Формально мы проверяем нулевую гипотезу о соответствии распределения выборочных средних значений нормальному распределению. В этом случае среднее выборочных средних выборок извлеченных из данной совокупности и соответственно истинное среднее совокупности μ1, если наша оценка правильная и основана на достаточном количестве данных, должны быть равны или меньше заданному значению пористости. Эту гипотезу можно записать как
H0 - μ1 ≤ μ0.
В противоположном случае изучаемая совокупность известняков, то есть истинная средняя пористость известняков μ1 превосходит заявленное значение пористости в 18% и альтернативную гипотезу можно записать как
H1 - μ1> μ0.
Для определения критического значения t или t-критерия Стьюдента по таблице Стьюдента нужно задать уровень значимости риска и число степеней свободы. В данном случае известно заявленное содержание пористости – 18%, но вместо истинного стандартного отклонения значений пористости в совокупности известняков мы использовали для расчетов ее оценку, вычисленную по 10 образцам, поэтому мы теряем 1 степень свободы и выборке содержащей 10 образцов соответствует 9 степеней свободы. Выберем уровень значимости риска в 5%, в этом случае при отклонении нулевой гипотезы ошибка отклонения составляла всего 5 случаев из 100. Основываясь на таблице Стьюдента, определяем t – критерий, который равен 1.83. В данном случае мы отвергаем нулевую гипотезу с вероятностью в 95%, так как вычисленное значение t попадает в критическую область и оно больше чем критическое значение из таблицы Стьюдента. Однако если бы мы задались более высоким уровнем значимости риска, например уровнем значимости в 1% (в этом случае ошибка отклонения нулевой гипотезы составляла 1 случай из 100), то у нас не было бы оснований отклонять нулевую гипотезу, так как тогда критическое значение t по таблице Стьюдента равно 2.8. То есть, у нас нет оснований отклонить нулевую гипотезу с вероятностью, что мы правильно это делаем в 99%. Чем выше рассчитанное по формуле значение t, тем больше вероятность, что мы принимаем правильное решение и что пористость известняков изучаемой совокупности больше чем 18%.
Такой критерий называют односторонним критерием, так как его критическая область расположена только с одной стороны области значений t-распределения. Рассмотрение гипотезы о том, что данная выборка взята из совокупности с заданными характеристиками характерно для решения задач о проверке качества выпускаемой продукции на каком либо производстве, которое выпускает эту продукцию в большом количестве. Так как часто, нет возможности проверить качество у каждой единицы продукции, то берут выборку из выпущенной продукции за какой-либо период и если измеренные характеристики продукции по критерию Стьюдента превышают заданные, то всю продукцию, произведенную в этот период, бракуют.
Проверка гипотезы об однородности двух выборок возникает в большем количестве геологоразведочных задач. Так еще 2 десятилетия назад многими специалистами серьезно рассматривалась правомерность замены химического анализа проб, взятых из керна скважин пробуренных на месторождениях железистых кварцитов, на геофизические исследования скважин способом каротажа магнитной восприимчивости (КМВ). Ясно, что геофизические исследования скважин экономически более оправданы, чем производство химических анализов проб. Нередко при разведке месторождений золота и цветных металлов специалисты стремятся заменить проходку шурфов бурением неглубоких скважин. Обоснованность решения в пользу того или иного способа прямо зависит от сравнения с помощью критерия Стьюдента результатов анализов, полученных разными способами.
Предположим, что в другом районе также были взяты 10 проб, в которых была измерена пористость. По результатам измерения среднее выборки равно 18.9 (χ = 18.9), дисперсия равна 28.26 (S2=28.26), стандартное отклонение равно 4.82 (S=4.82). Мы проверяем нулевую гипотезу, по которой средние двух выборок равны, мы имеем одну совокупность, из которой извлекаем значения, то есть -
H0 - μ1 = μ2.
Альтернативная гипотеза будет заключаться в том, что средние двух выборок не равны между собой, и мы извлекаем значения из разных совокупностей –
H1 - μ1> μ2.
Зададим уровень значимости в 10% (то есть мы будем допускать, что мы можем, отклонить нулевую гипотезу исходя из статистики предыдущих испытаний с вероятностью в 90%, что наше решение правильное).
В этом случае значение t определяется по следующей формуле –
t = (χ1 – χ2)/SE
SE = SP * (√1/n1 + 1/n2)
Здесь SP это объединенная оценка стандартных отклонений, найденная комбинацией двух выборочных дисперсий –
SP2 = [(n1-1)*S12 + (n2-1)*S22]/(n1+n2 -2) .
Процесс объединения дисперсий двух выборок приводит к потере 2 степеней свободы, поэтому общее число степеней свободы равно n1+n2 -2.
Расчет t –значения по формулам приводится ниже –
SP2 = [(10-1)*30.46 + (10-1)*28.21]/(10+10 -2) =29.33
SE = 5.41 * (√1/10 + 1/10) = 2.419
t = (21.3 – 18.9)/2.419 = 0.99
Данный критерий называется двухсторонним, так как среднее значение одной из выборок может быть больше или меньше среднего значения другой выборки. Поэтому в таблице Стьюдента мы находим значение t-критерия для 18 степеней свободы и для (10% /2) уровня риска, то есть по 5% с каждой стороны доверительного интервала. В нашем случае значение t-критерия равно -1.7 и +1.7. Так как вычисленное значение t не попадает не в одну критическую область, то у нас нет оснований предполагать, что по данному признаку образцы взяты из разных совокупностей, то есть, у нас нет оснований отвергать нулевую гипотезу. Для того, что бы применять t-критерий необходимо выполнение следующих условий:
а) все пробы, в которых измерялось значения признака (в данном случае –пористости) должны извлекаться из исследуемой территории на основании процедуры случайного отбора,
б) значения в совокупностях, из которых извлечены выборки, должны подчиняться нормальному распределению,
в) дисперсии совокупностей должны быть равны.
Допускается отклонение от нормального распределения, но соблюдение третьего условия обязательно, так как данный статистический критерий изначально исходит из предположения о равенстве дисперсий сравниваемых совокупностей. Если дисперсии равны, то только тогда можно начинать процедуру сравнения средних, и только если равны и дисперсии и средние двух выборок, то можно говорить об эквивалентности двух совокупностей.
Дата добавления: 2019-04-03; просмотров: 492;