Проверка гипотезы о законе распределения
Одна из важнейших задач анализа вариационных рядов заключается в выявлении закономерности распределения и определении ее характера. Основной путь в выявлении закономерности распределения - построение вариационных рядов для достаточно больших со-вокупностей. Большое значение для выявления закономерностей распределения имеет правильное построение самого вариационного ряда: выбор числа групп и размера интервала варьирующего признака.
Когда мы говорим о характере, типе закономерности распределения, то имеем в виду отражение в нем общих условий, определяющих вариацию. При этом речь всегда идет о распределениях качественно однородных явлений. Общие условия, определяющие тип закономерности распределения, познаются анализом сущности явления, тех его свойств, которые определяют вариацию изучаемого признака. Следовательно, должна быть выдвинута какая-то научная гипотеза, обосновывающая определенный тип теоретической кривой распределения.
Под теоретической кривой распределения понимается графическое изображение ряда в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариантов (значений признака). Теоретическое распределение может быть выражено аналитически - формулой, которая связывает частоты вариационного ряда и соответствующие значения признака. Такие алгебраические формулы носят названиезаконов распределения.
Большое познавательное значение имеет сопоставление фактических кривых распределения с теоретическими.
Как уже отмечалось, часто пользуются типом распределения, которое называется нормальным. Формула функции плотности нормального распределения:
.
Следовательно, кривая нормального распределения может быть построена по двум параметрам - средней арифметической ц и среднему квадратическому отклонению ст.
Гипотезы о распределениях заключаются в том, что выдвигается предположение о том, что распределение в генеральной совокупности подчиняется какому-то определенному закону. Проверка гипотезы состоит в том, чтобы на основании сравнения фактических (эмпирических) частот с предполагаемыми (теоретическими) частотами сделать вывод о соответствии фактического распределения гипотетическому распределению. Может проводиться и сравнение частостей.
Под гипотетическим распределением необязательно понимается нормальное распределение. Может быть выдвинута гипотеза о биномиальном распределении, распределении Пуассона и т.д. Причина частого обращения к нормальному распределению в том, что в этом типе распределения выражается закономерность, возникающая при взаимодействии множества случайных причин, когда ни одна из них не имеет преобладающего влияния. Закон нормального распределения лежит в основе многих теорем математической статистики, применяемых для оценки репрезентативности выборок, при измерении связей и т. д. В социально-экономической статистике нормальное распределение встречается редко, но сравнение с ним важно для выяснения степени и характера отклонения от него фактического распределения.
В главе 5 отмечалось, что близость средней арифметической величины, медианы и моды указывает на вероятное соответствие изучаемого распределения нормальному закону. Но более полная и точная проверка соответствия распределения гипотезе о нормальном законе производится с использованием специальных критериев, из которых рассмотрим наиболее употребимый критерий c2 (хи-квадрат) К. Пирсона.
Для проверки гипотезы о соответствии эмпирического распределения закону нормального распределения необходимо частоты (частости) фактического распределения сравнить с частотами (частостями) нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения f̂ по формуле (для дискретных рядов):
, (7.27)
где п - объем выборки;
i - величина интервала вариационного ряда.
Значение ординат кривой нормального распределения f(t) можно получить по таблицам значения функции:
.
Проверяемая гипотеза формулируется как Н0: fj = f̂j альтернаивная - как Н1: fj ≠ f̂j.
Проверка гипотезы требует, чтобы был построен теоретический ряд распределения с частотами f̂j, соответствующими нормальному закону, при тех же значениях параметров распределения
Методика построения теоретического ряда такова:
1. По фактическому интервальному ряду (табл. 5.6) вычисляются значения / для каждой группь< хозяйств по формуле (для интервальных рядов):
-для начала и конца интервала.
2. Вычисляется вероятность попадания единицы наблюдения в данный интервал при выполнении гипотезы о нормальном законе:
,
где |tj| > |tj+1|
3. Определяется теоретическая частота в данной группе, равная произведению объема совокупности на вероятность попадания в данный интервал:
4. Находится значение критерия c2 по формуле
(7.28)
где k — число категорий ряда распределения;
j - номер категории;
fj - частота эмпирического распределения;
f̂j - частота теоретического распределения.
При расчете c2 частоты можно заменить частостями:
(7.29)
где pj - частости эмпирического распределения;
pj - вероятности теоретического распределения.
При этом, согласно Ф. Йейтсу (Jates), группы с теоретическими частотами менее 5 принято объединять, что снижает влияние случайных ошибок (см. [6]).
Если все эмпирические частоты равны соответствующим теоретическим частотам, то c2 равно нулю. Очевидно, что чем больше отличаются эмпирические и теоретические частоты, тем c2 больше; если расхождение несущественно, то c2 должно быть малым. Имеются специальные таблицы критических значений c2 при 5%-ном и 1%-ном уровнях значимости. Критические значения зависят от числа степеней свободы (d.f. - degrees of freedom) и уровня значимости.
Число степеней свободы рассчитывается так: если эмпирический ряд распределения имеет k категорий, то k эмпирических частот f1, f2, …, fk должны быть связаны следующим соотношением: Если параметры теоретического распределения известны, то только k - 1 частот могут принимать произвольные значения, т. е. свободно варьировать, а последняя частота может быть найдена из указанного соотношения. Поэтому говорят, что система из k частот благодаря наличию одной связи теряет одну «степень свободы» и имеет только k — 1 степеней свободы. Кроме того, если при нахождении теоретических частот р параметров теоретического распределения неизвестны, то они должны быть найдены по данным эмпирического ряда. Это накладывает на эмпирические частоты еще р связей, благодаря чему система теряет еще р степеней свободы. Таким образом, число свободно варьируемых частот (а значит, и число степеней свободы) становится равным:
d.f. = (k - 1) - р = k - (р + 1). (7.30)
Полученное значение критерия c2 сравнивается с табличным при числе степеней свободы, равном числу групп (с условием Ф. Йейтса), за минусом трех - по числу фиксированных параметров в формуле нормального закона распределения и с учетом равенства сумм теоретических и фактических частот (см. приложение, табл. 4).
В первой графе этой таблицы дано число степеней свободы, а в заголовках граф - уровни значимости. Если фактическое значение c2 превышает табличное при том же числе степеней свободы, то вероятность соответствия распределения нормальному закону меньше указанной. Результаты расчета c2 по данным табл. 5.6 (глава 5) приведены в табл. 7.5 при х = 30,3; s = 8,44.
Сумма теоретических частот нормального распределения меньше суммы фактических частот, так как нормальный закон не ограничен рамками фактических минимума и максимума.
Число групп после объединения малочисленных составило 7. Критическое значение c2 по табл. 4 приложения при 7-3 = 4 степеням свободы и значимости 0,05 составляет 9,49. Значит, вероятность расхождения распределения с нормальным меньше 0,05, и вероятность соответствия его нормальному закону больше 0,95. Табличное значение c2 для значимости 0,1 равно 7,78, что также больше фактического.
Таблица 7.5
Дата добавления: 2015-01-21; просмотров: 1108;