Бизнес-портал для руководителей, менеджеров, маркетологов, экономистов и финансистов

Поиск на AUP.Ru


Объявления

Орлов А.И.
Прикладная статистика

М.: Издательство «Экзамен», 2004.

Предыдущая

Часть 2. Основные проблемы прикладной статистики

2.3. Проверка гипотез

2.3.2. Неустойчивость параметрических методов отбраковки выбросов

При обработке реальных технических, экономических, медицинских и иных данных, полученных в процессе наблюдений, измерений, расчетов, иногда один или несколько результатов наблюдений резко выделяются, т.е. далеко отстоят от основной массы данных. Такие резко выделяющиеся результаты наблюдений часто считают содержащими грубые погрешности, соответственно называют промахами или выбросами. В рассматриваемых случаях возникает естественная мысль о том, что подобные наблюдения не относятся к изучаемой совокупности, поскольку содержат грубую погрешность, а получены они в результате ошибки, промаха. В справочнике по метрологии об этом явлении говорится так: "Грубые погрешности и промахи возникают из-за ошибок или неправильных действий оператора (его психофизиологического состояния, неверного отсчета, ошибок в записях или вычислениях, неправильного включения приборов и т.п.). А также при резких кратковременных изменениях условий проведения измерений (в результате вибрации, поступления холодного воздуха, толчка прибора оператором и т.п.). Если грубые погрешности и промахи обнаруживают в процессе измерений, то результаты, содержащие их, отбрасывают. Однако чаще всего их выявляют только при окончательной обработке результатов измерений с помощью специальных критериев оценки грубых погрешностей" [7, с.46-47].

Есть два подхода к обработке данных, которые могут быть искажены грубыми погрешностями и промахами:

1) отбраковка резко выделяющихся результатов наблюдений, т.е. обнаружение наблюдений, искаженных грубыми погрешностями и промахами, и исключение их из дальнейшей статистической обработки;

2) применение устойчивых (робастных) методов обработки данных, на результаты работы которых мало влияет наличие небольшого числа грубо искаженных наблюдений (см. подраздел 2.2.4).

Обсудим методы отбраковки. Наиболее изучена ситуация, когда результаты наблюдений - числа x1, x2,…, xn, среди них резко выделяется один результат наблюдения, для определенности, максимальный xmax.

          Простейшая вероятностно-статистическая модель такова [6]. При нулевой гипотезе H0 результаты наблюдения x1, x2,…, xn рассматриваются как реализация независимых одинаково распределенных случайных величин числа X1, X2,…, Xn с функцией распределения F(x). При альтернативной гипотезе H1 случайные величины X1, X2,…, Xn также независимы, X1, X2,…, Xn-1 имеют распределение F(x), а Xn - распределение G(x), оно "существенно сдвинуто вправо" относительно F(x), например, G(x)=F(x - A), где A достаточно велико. Если альтернативная гипотеза справедлива, то при  вероятность равенства

стремится к 1, поэтому естественно применять решающее правило следующего вида:

          если xmax.> d, то принять H1,

          если xmax.< d, то принять H0 ,                        (1)

где d - параметр решающего правила, который следует определять из вероятностно-статистических соображений.

          При справедливости нулевой гипотезы

Статистический критерий проверки гипотезы H0 , основанный на решающем правиле вида (1), имеет уровень значимости , если

т.е.

         (2)

Из соотношения (2) определяют граничное значение d = d(, n) в решающем правиле (1).

          При больших n и малых  согласно известным результатам математического анализа

     (3)

поэтому в качестве хорошего приближения к d(, n) рассматривают (1-/n) - квантиль распределения F(x).

          Пусть правило отбраковки задано в соответствии с соотношениями (1) и (2) с некоторой функцией распределения F, однако выборка берется из функции распределения G, мало отличающейся от F в смысле расстояния Колмогорова:

     (4)

          С помощью соотношения (3) получаем, что величина = G(d) для d из уравнения (2) находится между  и . Таким образом, уровень значимости критерия, построенного для F, при применении к наблюдениям из G есть 1- и может принимать любые значения в отрезке [1-; 1-].

          В частности, при = 0,01, =0,05, n = 5 возможные значения уровня значимости заполняют отрезок [0; 0,1], т.е. уровень значимости может быть в 2 раза выше номинального. А если n возрастает до 30, то максимальный уровень значимости есть 0,297, т.е. почти в 6 раз выше номинального. При дальнейшем росте n верхняя граница для уровня значимости, как нетрудно видеть, приближается к 1.

          Рассмотрим и другой вопрос - насколько правило отбраковки с уровнем значимости  для G может отличаться от такового для F при справедливости неравенства (4). С использованием соотношения (3) заключаем, что из

           (5)

следует, что  где  и  выписаны выше. Решение уравнения (5) может принимать любое значение в отрезке []. В частности, при =0,05 и n = 5 для стандартного нормального распределения F имеем d(, n) = 2,319, при =0,01 решение уравнения (5) может принимать любое значение в отрезке [2,054; + ], при  =0,005 - любое значение в [2,170; 2,576].

          При использовании любого другого расстояния между функциями распределения выводы о неустойчивости правил отбраковки также справедливы. Отметим, что проведенные рассмотрения выполнены в рамках "общей схемы устойчивости" (см.  главу 1.4).

          Рассмотренные примеры показывают, что при конкретном значении = 0,01 в неравенстве (4) весьма неустойчивы как уровни значимости при фиксированном правиле отбраковки, так и параметр d правила отбраковки при фиксированном уровне значимости. Обсудим, насколько реалистично определение функции распределения с точностью

          Есть два подхода к определению функции распределения результатов наблюдений: эвристический подбор с последующей проверкой с помощью критериев согласия и вывод из некоторой вероятностной модели.

          Пусть с помощью критерия согласия Колмогорова проверяется гипотеза о том, что выборка взята из распределения F. Пусть функции распределения F и G удовлетворяют соотношению (4). Пусть на самом деле выборка взята из распределения G, а не F. При каких  не удастся различить F и G? Для определенности, при каких гипотеза согласия с F будет приниматься не менее чем в 50% случаев?

          Критерий согласия Колмогорова основан на статистике

     (6)

где расстояние между функциями распределения определено выше в формуле (4); H - та функция распределения, согласие с которой проверяется, а Fn - эмпирическая функция распределения (т.е. Fn(х) равно доле наблюдений, меньших х, в выборке объема n). Как показал А.Н. Колмогоров в 1933 г., функция распределения случайной величины  при росте объема выборки n сходится к некоторой функции распределения К(х), которую ныне называют функцией Колмогорова. При этом К(1,36)= 0,95 и К(0,83)=0,50.

          Поскольку выборка взята из распределения G, то с вероятностью 0,50

           (7)

(при больших n). Тогда для рассматриваемой выборки с учетом неравенства (4) и неравенства треугольника для расстояния Колмогорова и симметричности этого расстояния имеем

Если

т.е.

            (8)

то, согласно формуле (6), гипотеза согласия принимается (на уровне значимости 0,95) по крайней мере с той же вероятностью, с которой выполнено неравенство (7), т.е. с вероятностью не менее 0,50. Для = 0,01 это условие выполняется при n < 2809. Таким образом, для определения функции распределения с точностью  с помощью критерия согласия Колмогорова необходимо несколько тысяч наблюдений, что для большинства задач прикладной статистики нереально.

          При втором из названных выше подходов к определению функции распределения ее конкретный вид выводится из некоторой системы аксиом, в частности, из некоторой модели порождения соответствующей случайной величины. Например, из модели суммирования вытекает нормальное распределение. А из мультипликативной модели (т.е. модели перемножения) - логарифмически нормальное распределение. Как правило, при выводе используется предельный переход. Так, из Центральной Предельной Теоремы теории вероятностей вытекает, что сумма независимых случайных величин может быть приближена нормальным распределением. Однако более детальный анализ, в частности, с помощью неравенства Берри-Эссеена (см. подраздел 2.1.1) показывает, что для гарантированного достижения точности  необходимо более полутора тысяч слагаемых. Такого количества слагаемых реально, конечно, указать почти никогда нельзя. Это означает, что при решении практических статистических задач теория дает возможность лишь сформулировать гипотезу о виде функции распределения, а проверять ее надо с помощью анализа реальной выборки объема, как показано выше, не менее нескольких тысяч.

          Таким образом, в большинстве реальных ситуаций определить функцию распределения с точностью  невозможно.

          Итак, показано, что правила отбраковки, основанные на использовании конкретной функции распределения, являются крайне неустойчивыми к отклонениям от нее распределения элементов выборки, а гарантировать отсутствие подобных отклонений почти всегда невозможно. Поэтому отбраковка по классическим правилам математической статистики [6] не является научно обоснованной, особенно при больших объемах выборок. Указанные правила целесообразно применять лишь для выявления "подозрительных" наблюдений, вопрос об отбраковке которых должен решаться из соображений соответствующей предметной области, а не из формально-математических соображений.

          Выше для простоты изложения рассмотрен лишь случай полностью известного распределения F, для которого изучено правило отбраковки, заданное формулами (1) и (2). Аналогичные выводы о крайней неустойчивости правил отбраковки справедливы, если "истинное распределение" принадлежит какому-либо параметрическому семейству, например, нормальному, Вейбулла-Гнеденко, гамма.

          Параметрическим методам отбраковки, основанным на моделях тех или иных параметрических семейств распределений, посвящены тысячи книг и статей. Приходится признать, что они имеют в основном внутриматематический интерес. При обработке реальных данных следует применять устойчивые методы (см. подразделы 1.4.7 и 2.2.4). Прежде всего можно рекомендовать непараметрические методы, а среди них – ранговые (т.е. инвариантные в порядковой шкале).

Предыдущая

Объявления