Центральная предельная теорема и ее практическое применение.
Обычно мы не знаем, какой вид имеет распределение совокупности, часто по характеру кривой распределения выборки мы предполагаем, что распределение совокупности может значительно отличаться от нормального распределения. Как же тогда производить оценки параметров в случае, если мы имеем данные, отнесенные по классификации Пирсона к данным третьего типа. Эти данные после любых математических преобразованиях все равно не будут иметь нормальное распределение. Для решения этой задачи необходимо познакомиться с центральной предельной теоремой. Наиболее полно эта теорема раскрыта в работах П.Л.Чебышева и А.М.Ляпунова. А.М.Ляпунов доказал, что если выборки извлечены случайно из любой совокупности, то средние, вычисленные для этих данных, а именно выборочные средние являются случайными величинами, распределение, которых стремится к нормальному распределению при увеличении объема выборки при условии, что совокупность обладает конечной средней и ограниченной дисперсией. Можно сказать, что это главный тезис этой теоремы. В справедливости этого утверждения мы убедились в главе “Стандартизация переменных и таблицы плотности вероятности нормального распределения”, когда рассматривали пример анализа данных опробования эксплуатационного блока полиметаллического месторождения. Хотя распределение первичных данных опробования носило явно асимметричный характер, распределение средних значений этих выборок из наших данных – выборочных средних явно нормальное. Моделирование, которое проводилось для подтверждения этой теоремы, показало, что выборочные средние, даже если исходные данные имели любое из всех возможных распределений, при увеличении объема выборки будут стремиться иметь нормальное распределение. Предположим, что мы делаем выборку из U-образного распределения. Большая часть наблюдений может быть получена из двух краев распределения, в этом случае при расчете среднеарифметического значения, большие значения погашаются низкими значениями и среднеарифметическое значение находится близко к центру распределения. Если этот эксперимент повторить тысячу раз, то окажется, что выборочные средние будут располагаться всегда ближе к центру U-образного распределения и их распределение будет нормальным. Так как распределение выборочных средних значений стремится к нормальному распределению, то его можно описать двумя статистиками – средним и дисперсией. Из центральной предельной теоремы следуют четыре важных для нас определяющих вывода.
1. Как теоретические, так и эмпирические исследования показали, что среднее значение выборочных средних при увеличении количества данных в выборке будет стремиться к истинному среднему, то есть χχ = μ.
Здесь необходимо более подробно объяснить такое понятие как ошибка выборочного наблюдения или предельная ошибка, в геологической практике это понятие получило название погрешности наблюдения. Ошибкой выборочного наблюдения называется разность между оценкой параметра и истинным его значением.
Δχ = |χ - μ|.
П.Л.Чебышев первый вывод теоремы формулирует таким образом, что при достаточно большом числе независимых наблюдений можно с вероятностью близкой к 1 утверждать, что отклонение средней выборочных средних от истинного среднего будет сколь угодно малой.
2. Дисперсия выборочных средних при увеличении количества данных в выборке стремится к дисперсии совокупности, деленной на объем выборки. Стандартное отклонение выборочных средних значений как корень квадратный из дисперсии выборочных средних в мировой практике принято называть стандартной ошибкой среднего или просто стандартной ошибкой. Она описывает изменчивость, которую можно ожидать при повторных случайных отборах из той же совокупности. В статистической литературе она имеет разные названия, такие как средняя ошибка выборки [], относительная ошибка, величина погрешности. П.Л.Чебышев доказал, что величина ошибки выборочного наблюдения или погрешности не должна превышать стандартную ошибку среднего, определяемую по формуле -
SE = σ/√n,
где SE – стандартная ошибка, а σ – истинное стандартное отклонение (стандартное отклонение генеральной совокупности).
Величина стандартной ошибки прямо пропорционально зависит от истинной дисперсии и обратно пропорционально зависит от количества данных в выборке, то есть, увеличивая количество данных наблюдения в выборке, мы можем уменьшить погрешность определения такого параметра как среднее.
3. Зная среднюю величину выборочных средних и стандартную ошибку можно определить границы, внутри которых с большой вероятностью, может быть истинное среднее значение генеральной совокупности. Расстояние между этими границами называется интервалом доверия, или доверительным интервалом. Доверительный интервал определяется по следующей формуле -
1/2 SE - χχ +1/2SE или
1/2 σ/√n - χχ + 1/2 σ/√n.
Так как распределение выборочных средних при большом числе независимых наблюдений стремится к нормальному распределению, то и для определения того, с какой вероятностью истинное среднее - μ может находиться внутри доверительного интервала, также можно применить правило трех σ (правило трех стандартных отклонений). Так как границы интервала доверия определяется плюсом и минусом половины стандартной ошибки, то можно сказать, что истинное среднее – μ находится в доверительном интервале с вероятностью близкой к 68.3%.
Если мы увеличим доверительный интервал и определим его плюсом и минусом из двух стандартных отклонений от среднего выборочных средних, то мы можем сказать, что истинное среднее – μ находится в интервале доверия с большей вероятностью равной 95.4%.
Чем больше пределы, в которых допускается возможная ошибка, тем с большей вероятностью мы судим о ее величине.
Однако по этой формуле мы не когда не сможем определить не величину погрешности определения среднего, не доверительные границы, так как мы при проведении геологоразведочных работ не знаем истинного стандартного отклонения изучаемой совокупности, а пользуемся только оценкой стандартного отклонения, определяемого по выборочным данныма пользуемся только оценкой ности.работ него не доверительные границы, так как мы не когда не знаем истинного стандартногоостид.
4. Для определения стандартной ошибки и границ доверительного интервала на практике используется оценка стандартного отклонения, рассчитанная по выборочным данным, и в этом случае для определения границ вводится поправка Стьюдента - tα, рассчитанная им для разных степеней свободы и уровня риска - L. Распределение и таблицы Стьюдента будут раскрыты позже, сразу после этой главы. В этом случае окончательная формула определения доверительного интервала и стандартной ошибки или погрешности будет следующей
tα*1/2 S/√n - χχ + 1/2 S/√n *tα.
Значение центральной предельной теоремы очень важное, центральная предельная теорема позволяет сформулировать статистические критерии, основанные на характеристиках нормальной кривой и применять их даже в тех случаях, когда совокупность, из которой взята выборка, не распределена нормально. Если наши экспериментальные данные не подчиняются нормальному распределению, то все равно мы можем оценивать истинные параметры, но не точно, а с погрешностью, в интервалах доверия и, увеличивая количество данных в выборке, мы можем этот интервал доверия сужать, то есть давать более точную оценку параметров. Эти выводы из центральной предельной теоремы являются универсальными и их, возможно, использовать для всех случаев, даже если изначально наши выборочные данные подчиняются и нормальному распределению, так как не обязательно, что изучаемая совокупность будет иметь нормальное распределение. На практике в этом случае часто также используют при определении точности оценок параметров выводы из нормального закона распределения. Если, например, дается оценка среднего содержания, то утверждают, что с вероятностью в 68.3% истинное среднее (или математическое ожидание) - μ находится в пределах плюс - минус в одно стандартное отклонение от выборочного среднеарифметического содержания.
Несомненно, дисперсия является базисной оценкой для определения точности наших оценок. Так, например, при оценке запасов месторождений металлов доминирующим компонентом является колебание металла в нашей выборке, отражающее природную изменчивость изучаемого объекта. Умножив запасы руды, которые мы определили как произведение объема рудного тела на плотность руды, на среднее содержание металла, то мы получим оценку запасов конкретного металла в данном месторождении. Определим стандартную ошибку через коэффициент вариации, и получим значение погрешности в процентах. Это создает удобство для дальнейших расчетов. Например, мы оценили некоторое месторождение золота как крупное с запасами металла в 100 тонн, однако и стандартная ошибка или погрешность определения среднего содержания металла равна по нашим расчетам - 100%. Значит, мы можем определить границы интервала доверия, в котором с вероятностью в 68.2% находится истинное количество золота на этом месторождении. Соответственно если использовать приведенную ранее формулу определения доверительных границ, то, игнорируя поправки Стьюдента, истинное количество металла может находиться в пределах от 50 до 150 тонн, если например погрешность определения среднего содержания металла -50%, то истинное количество металла может находиться в пределах от 75 до 125 тонн. Точное определение границ доверительного интервала с учетом поправок Стьюдента, рассчитанных для разных степеней риска, является в целом мощным инструментом определения меры риска при вовлечении конкретного объекта в хозяйственный оборот. Нередко эксперты корпораций и банков сознательно занижают оценки запасов металла, используют для расчетов показателей прибыли при эксплуатации месторождений нижние границы интервалов доверия, на случай если истинные запасы металла окажутся близко с нижней границей доверительного интервала или зоны риска. Нередко для таких расчетов используют или увеличенные (что бы можно было с вероятностью в 95.4% определять интервалы доверия) или асимметричные интервалы доверия. Использование асимметричных интервалов наиболее эффективно, если при предыдущем опыте разработки такого типа месторождений часто фиксировалось очень значительное не подтверждение запасов металла, то есть они оказывались гораздо меньше, чем предполагалось по данным геологоразведочных работ. Однако проекты разработки конкретных месторождений, конечно, должны основываться не на искаженных оценках запасов металла. Часто на практике при определении доверительных интервалов или зон риска проводят очень кропотливый анализ. Известно, что возможный разброс при подсчете запасов какого-либо металла функционально связан с определенным количеством независимых переменных, участвующих в подсчете и может быть вычислен с учетом дисперсии этих переменных. Запасы металла в конкретном рудном подсчетном блоке есть функция от объема блока, плотности или объемной массы руды, ее влажности и содержания металла в пробах, расположенных внутри данного блока. Следовательно, возможный разброс или стандартную ошибку определения запасов металла можно вычислить, учитывая дисперсию всех параметров, участвующих в подсчете запасов. Основываясь на опубликованной работе канадского специалиста Меркса ( J.W. Merks.)– “Опробование в разведке, теория и практика” на стадии геологоразведочных работ можно не уделять большое значение влиянию степени влажности, при определении влажности в образцах может возникнуть регистрационная (систематическая) отрицательная ошибка, но она достаточно умеренная и не может оказать большое влияние на величину стандартной ошибки при подсчете запасов. Разброс значений и дисперсию при определении объема рудного блока и объемной массы, можно определить очень точно, не прибегая к большим затратам. Как оценить дисперсию содержания металла за реальные (не фантастические) денежные средства, для того чтобы учесть ее в общей композитной дисперсии и является ключом к достоверности и точности оценки запасов металла.
Дата добавления: 2019-04-03; просмотров: 1228;