Орлов А.И.
Прикладная статистика
М.: Издательство «Экзамен», 2004.
Предыдущая |
Часть 3. Методы прикладной статистики
3.5. Статистика интервальных данных
3.5.3. Интервальные данные в задачах проверки гипотез
С позиций статистики интервальных данных целесообразно изучить все практически используемые процедуры прикладной математической статистики, установить соответствующие нотны и рациональные объемы выборок. Это позволит устранить разрыв между математическими схемами прикладной статистики и реальностью влияния погрешностей наблюдений на свойства статистических процедур. Статистика интервальных данных – часть теории устойчивых статистических процедур, развитой в монографии [3]. Часть, более адекватная реальной статистической практике, чем некоторые другие постановки, например, с засорением нормального распределения большими выбросами.
Рассмотрим подходы статистики
интервальных данных в задачах проверки статистических гипотез. Пусть принятие
решения основано на сравнении рассчитанного по выборке значения статистики
критерия с граничным значением С: если f>C, то гипотеза отвергается, если же f<C, то принимается. С учетом погрешностей
измерений выборочное значение статистики критерия может принимать любое
значение в интервале
Это означает, что «истинное» значение порога,
соответствующее реально используемому критерию, находится между C-Nf(y) и C+Nf(y), а
потому уровень значимости описанного правила (критерия) лежит между
и
, где P(Z)=P(f<Z).
Пример 1. Пусть - выборка из нормального распределения с
математическим ожиданием а и единичной дисперсией. Необходимо проверить
гипотезу H0: a = 0 при
альтернативе
Как известно из любого учебного курса
математической статистики, следует использовать следует использовать статистику и порог
где
- уровень значимости, Ф(.) –
функция стандартного нормального распределения с математическим ожиданием 0 и
дисперсией 1. В частности, С = 1,96 при
При ограничениях (1) на абсолютную
погрешность Например, если
= 0,1, а n = 100, то Nf(y) = 1,0.
Это означает, что истинное значение порога лежит между 0,96 и 2,96, а истинный
уровень значимости – между 0,003 и 0,34. Можно сделать и другой вывод: нулевую
гипотезу H0 допустимо отклонить на уровне значимости 0,05 лишь тогда, когда f > 2,96.
Если же n = 400 при то Nf(y) =2,0 и C-Nf(y) =
-0,04, в то время как C+Nf(y) =3,96.
Таким образом, даже в случае x = 0
гипотеза H0 может быть отвергнута только из-за
погрешностей измерений результатов наблюдений.
Вернемся к общему случаю проверки
гипотез. С учетом погрешностей измерений граничное значение в статистике интервальных данных целесообразно
заменить на
Такая замена дает гарантию, что вероятность
отклонения нулевой гипотезы H0, когда
она верна, не более
При проверке гипотез аналогом статистической
погрешности, рассмотренной выше в задачах оценивания, является
.
Суммарная погрешность имеет вид
Исходя из принципа уравнивания погрешностей
[3], целесообразно определять рациональный объем выборки из условия
Если f = |f1|, где f1 при
справедливости H0 имеет
асимптотически нормальное распределение с математическим ожиданием 0 и
дисперсией то
(47)
при
больших n, где - квантиль порядка
стандартного
нормального распределения с математическим ожиданием 0 и дисперсией 1. Из (47)
вытекает, что в рассматриваемом случае
В
условиях примера 1 и
Пример 2. Рассмотрим статистику одновыборочного критерия Стьюдента
где v – выборочный коэффициент вариации. Тогда с точностью до бесконечно малых более высокого порядка нотна для t имеет вид
где Nv(y) – рассмотренная ранее нотна для выборочного коэффициента вариации. Поскольку распределение статистики Стьюдента t сходится к стандартному нормальному, то небольшое изменение предыдущих рассуждений дает
Пример 3. Рассмотрим двухвыборочный критерий Смирнова, предназначенный для проверки однородности (совпадения) функций распределения двух независимых выборок [41]. Статистика этого критерия имеет вид
где Fm(x) –
эмпирическая функция распределения, построенная по первой выборке объема m, извлеченной из генеральной совокупности с
функцией распределения F(x), а Gn(x) –
эмпирическая функция распределения, построенная по второй выборке объема n, извлеченной
из генеральной совокупности с функцией распределения G(x).
Нулевая гипотеза имеет вид альтернативная состоит в ее отрицании:
Значение статистики сравнивают с порогом
зависящим
от уровня значимости
и объемов выборок m и n. Если значение статистики не превосходит
порога, то принимают нулевую гипотезу, если больше порога – альтернативную.
Пороговые значения
берут из таблиц [42]. Описанный критерий
иногда неправильно называют критерием Колмогорова-Смирнова. История вопроса
описана в [43].
При ограничениях (1) на абсолютные
погрешности и справедливости нулевой гипотезы нотна имеет вид (при больших объемах выборок)
Если F(x)=G(x)=x при 0<x<1, то С помощью условия
при уровне значимости
и достаточно больших объемах выборок (т.е.
используя асимптотическое выражение для порога согласно [42]) получаем, что
выборки имеет смысл увеличивать, если
Правая
часть этой формулы при равна 46. Если m = n, то последнее неравенство переходит в n < 92.
Теоретические результаты в области статистических методов входят в практику через алгоритмы расчетов, воплощенные в программные средства (пакеты программ, диалоговые системы). Ввод данных в современном статистической программной системе должен содержать запросы о погрешностях результатов измерений. На основе ответов на эти запросы вычисляются нотны рассматриваемых статистик, а затем – доверительные интервалы при оценивании, разброс уровней значимости при проверке гипотез, рациональные объемы выборок. Необходимо использовать систему алгоритмов и программ статистики интервальных данных, «параллельную» подобным системам для классической математической статистики.
Предыдущая |