НОВЫЕ НАПРАВЛЕНИЯ В ОБРАБОТКЕ ДАННЫХ
Непараметрика(непараметрическая статистика). Функции распределения не соответствуют классическим и часто являются эмпирическими. При этом достаточно предположения о непрерывности функции распределения. Позволяет делать статистические выводы, оценивать характеристики распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Тем не менее, параметрические методы всё еще популярнее непараметрических, особенно среди тех прикладников, кто слабо знаком со статистическими методами. Неоднократно публиковались экспериментальные данные, свидетельствующие о том, что распределения реально наблюдаемых случайных величин, в частности, погрешностей измерения, в подавляющем большинстве случаев отличны от нормальных. Тем не менее, теоретики продолжают строить и изучать статистические модели, основанные на нормальном распределении, а практики - применять подобные методы и модели [56, 57]. Но исследования продолжаются и достаточно успешно [58, 59].Это направление развивается также и в регрессионном анализе [4].
Робастность(устойчивость). Под робастностью понимается устойчивость процедур к нарушению исходных предпосылок, например, нарушение предположения о нормальности распределения данных. Выводы, полученные на основе математических методов исследования, должны мало меняться при небольших изменениях исходных данных и отклонениях от предпосылок модели. Две задачи: изучение устойчивости распространенных алгоритмов анализа данных и поиск робастных алгоритмов для решения тех или иных задач [56, 57].
В математической статистике робастными называют статистические оценки (статистики), малочувствительные к нарушению гипотез, на основе которых они построены. К их числу в широком смысле относят гипотезы нормальности, линейности, независимости и пр.
В узком смысле под робастностью статистических оценок вероятностных характеристик случайных величин понимают относительно малую их чувствительность к выделяющимся значениям (выбросам). Отношение к робастности на сегодня неоднозначно. Есть мнение, что достаточно руководствоваться двухшаговой процедурой: “редактирование” данных усечением выделяющихся результатов и последующее применение для “отредактированных” данных классических критериев и процедур оценивания. Однако, в задачах многомерной регрессии выбросы распознать трудно, если не иметь надежных робастных оценок для параметров. Кроме того, даже если исходные данные имеют нормальное распределение, после редактирования они таковыми наверняка не будут. Поэтому теоретические выводы, основанные на нормальности, неприменимы для отредактированных данных [60]. В статье [61] показано, что иногда даже при очень сильном цензурировании количество сохранившейся в выборке информации позволяет достаточно точно оценивать параметры закона. При ограниченных объемах выборок и значительном цензурировании распределения оценок оказываются существенно ассиметричными, а оценки смещенными. В случае неполных выборок оценки максимального правдоподобия параметров более чувствительны к имеющимся в выборке отклонениям от предположений и более предпочтительным является использование робастных оценок.
Робастная статистика остается своеобразной модой. Своей популярностью она обязана эффектным предложениям, особенно в биологических, психологических и социальных исследованиях. В работе [60] отмечается, что в сфере прикладной метрологии эффект от внедрения робастной статистики неоднозначен. В ней отмечается, в частности, что робастность – заложница нормальности и решение задачи проверки статистической однородности возможно лишь в том случае, когда контролируемое распределение вероятностей известно или хотя бы известен его тип. Так как в реальности контролируемое распределение никогда полностью не известно, то задача сводится к типовой задаче математической статистики – проверке гипотез о виде распределения совокупности результатов измерений. В итоге автором выделены следующие выводы: основная идея робастности – редактирование данных – противоречит основной идее теории вероятностей. Реальность вероятности не в математическом формализме, а в степени его адекватности физическим объектам, в степени статистической устойчивости явлений, что количественно и характеризует воспроизводимость.
Что же касается регрессионного анализа, то выяснилось, что повышенной устойчивостью обладают оценки параметров, полученных по методу минимизации суммы модулей погрешностей и максимального модуля погрешности (чебышевский метод оценивания). Робастные алгоритмы в известном смысле можно рассматривать как промежуточные компромиссные между параметрическими методами стандартной теории и непараметрическими подходами. Они используют некоторую информацию о законах распределения, хотя и “распоряжаются” ею иначе [4].
Кроме редактирования данных есть и другие направления, по которым ведутся работы, позволяющие если не исключить, то, по крайней мере, учесть неизбежные погрешности. Примером может послужить рекуррентный алгоритм оценивания линейной модели регрессии с учетом погрешности регрессионного метода [63].
Автоматическое исключение грубых погрешностей – это отнюдь не всегда наиболее целесообразная процедура. В работе [4] высказано мнение, что иногда выброс дает такую информацию, которую другие данные не могут дать благодаря тому, что он связан с необычной комбинацией условий, являющейся жизненно важной. В этом случае требуется, скорее, дальнейшее углубление исследования, а не механическое отбрасывание выброса. В целом, все признают общее правило: выбросы должны исключаться сразу, если только выяснится, что они вызваны такими причинами, как ошибки в регистрации результатов наблюдений или в настройке аппаратуры и т.п. В противном случае требуется тщательное исследование. Однако на практике оно выполняется не всегда.
Интервальная статистика. Это анализ интервальных статистических данных. Все средства измерений имеют погрешности. Однако до недавнего времени, это очевидное обстоятельство никак не учитывалось в статистических процедурах. В результате – абсурдная концепция состоятельности как необходимого свойства статистических оценок параметров и характеристик. Только недавно начала развиваться теория интервальной статистики. В ней предполагается, что необходимые данные – не числа, а интервалы. Интервальную статистику можно рассматривать как часть интервальной математики. Выводы в ней часто принципиально отличаются от классических [56, 57]. Интервальная постановка задачи более реалистична, чем точная, но сопряжена с дополнительной трудностью, обусловленной несравнимостью (невозможностью измерения) некоторых интервальных величин. Эта несравнимость – плата за недостаток информации о сравниваемых (измеряемых) величинах. Поэтому выход из сложившейся ситуации следует искать, пополняя указанную информацию, либо уменьшая шаг между эталонами с увеличением их общего числа [64].
Разомножение выборок. Используется при дефиците данных. На основе исходной выборки ограниченного объема тиражируется множество выборок для изучения эмпирического распределения, оценки параметров, проверки гипотез. Например, выделяют «метод складного ножа», «бутстреп».
Объекты нечисловой природы. Включают объекты нечисловой природы (нелинейные пространства не имеющие векторную структуру). Их нельзя складывать и умножать на числа, но используются расстояния между объектами (меры близости и показатели различия). Примеры: значения качественных признаков, ранжировки объектов, разбиения объектов, парные сравнения, слова, предложения, тексты.
Дата добавления: 2015-08-21; просмотров: 719;