Нечисловая статистика: Метод проверки гипотез по совокупности малых выборок

Орлов А.И.
Нечисловая статистика
М.: МЗ-Пресс, 2004.

Глава 3. Статистика нечисловых данных конкретных видов

3.3. Метод проверки гипотез по совокупности малых выборок

Одна из областей применения прикладной статистики – статистические методы управления качеством продукции [5, гл.13]. К ним относится статистический приемочный контроль, в котором по результатам испытаний элементов выборки делается вывод о качестве партии продукции. В простейшем варианте проводится контроль по альтернативному признаку, при котором возможны лишь два результата контроля конкретной единицы продукции – «соответствует требованиям» или «не соответствует требованиям», короче – «да» или «нет».

Рассмотрим статистический приемочный контроль по двум альтернативным признакам одновременно. В терминах теории люсианов обсудим проблему проверки независимости двух альтернативных признаков. Ее приходится проводить по совокупности малых выборок, т.е. в так называемой асимптотике А.Н.Колмогорова, когда число неизвестных параметров распределения не является постоянным, а растет пропорционально объему данных.

Испытания по двум альтернативным признакам. При статистическом контроле качества продукции, в частности, при сертификации, чаще всего используют контроль по альтернативным признакам. При этом устанавливается, соответствует ли контролируемый параметр единицы продукции (изделия, детали) заданным в нормативно-технической документации требованиям или не соответствует. Если соответствует - единица продукции признается годной. Примем для определенности, что в этом случае результат контроля кодируется символом 0. Если же не соответствует - единица продукции признается дефектной, а результат контроля кодируется символом 1.

Таким образом, в рассматриваемой нами математической модели контроля альтернативный признак - это функция X = X(w), определенная на множестве единиц продукции W = {w} и принимающая два значения 0 и 1. Причем X(w) = 0 означает, что единица продукции w является годной, а X(w) = 1 - что она является дефектной.

Методы статистического контроля, в частности, включенные в государственные стандарты и иную нормативно-техническую документацию (НТД), как правило, используют контроль по одному признаку. В НТД указывают правила выбора планов контроля и расчета различных их характеристик, приводят графики оперативных характеристик и т.п.

Однако на производстве контроль нередко проводится по нескольким альтернативным признакам. Возникает проблема выбора плана контроля и расчета его характеристик.

Рассмотрим сначала контроль по двум альтернативным признакам X(w) и Y(w). В вероятностной модели X(w) и Y(w) - случайные величины, принимающие два значения - 0 и 1. Пусть, пользуясь стандартной (для статистических методов управления качеством) терминологией,

p₁ = P(X(w) = 1)

- входной уровень дефектности для первого признака, а

p₂ = P(Y(w) = 1)

- для второго. Вероятности результатов контроля по двум признакам одновременно описываются четырьмя числами:

P(X(w) = 0, Y(w) = 0) = p₀₀, P(X(w) = 1, Y(w) = 0) = p₁₀,

P(X(w) = 0, Y(w) = 1) = p₀₁, P(X(w) = 1, Y(w) = 1) = p_11.

При этом справедливы соотношения:

p₀₀ + p₁₀ + p₀₁ + p₁₁ = 1, p₁₀ + p₁₁ = p₁, p₀₁ + p₁₁ = p₂.

С прикладной точки зрения наиболее интересна вероятность p₀₀ того, что единица продукции является годной (по всем параметрам), и вероятность ее дефектности (1-p₀₀ ), т.е. входной уровень дефектности для изделия в целом.

В табл.1 сведены вместе введенные выше вероятности.

Таблица 1.

Вероятности результаты испытаний при контроле по двум альтернативным признакам

	X=0	X=1	Всего
Y=0
Y=1
Всего			1

Есть три важных частных случая - поглощения, несовместности и независимости дефектов. Другими словами, поглощения, несовместности и независимости событий {w: X(w) = 1} и {w: Y(w) = 1}. В случае поглощения одно из этих событий содержит другое, а потому

p₀₀ = 1 - max(p₁ , p₂).

В случае несовместности

p₀₀ = 1 - p₁ - p₂.

В случае независимости

p₀₀ = (1 - p₁)(1 - p₂) = 1 - p₁ - p₂ + p₁p₂.

Очевидно, что вероятность годности изделия всегда заключена между значениями, соответствующими случаям поглощения и несовместности. Кроме того, известно, что при большом числе признаков и малой вероятности дефектности по каждому из них случаи поглощения и независимости дают (в асимптотике) крайние значения для вероятности годности изделия, т.е. формулы, соответствующие независимости и несовместности, асимптотически совпадают. Причина этого явления состоит в том, что при малости p₁ и p₂ их произведение p₁p₂является бесконечно малой более высокого порядка по сравнения с p₁и p₂.

Рассмотрим несколько примеров. Пусть некоторая продукция, скажем, гвозди, контролируются по двум альтернативным признакам, для определенности, по весу и длине. Пусть результаты контроля 1000 единиц продукции представлены в табл.2

Таблица 2.

Результаты 1000 испытаний по двум альтернативным признакам (случай поглощения)

	Х=0	Х=1	Всего
У=0	952	0	952
У=1	0	48	48
Всего	952	48	1000

Судя по данным табл.2, дефекты всегда встречаются парами - если есть один, то есть и другой. Входной уровень дефектности как по каждому показателю, так и по обоим вместе - один и тот же, а именно, 0,048. Получив по результатам статистического наблюдения данные типа приведенных в табл.2, целесообразно перейти к контролю только одного показателя, а не двух. Каково именно? Видимо, того, контроль которого дешевле.

Совсем иная ситуация в случае несовместности дефектов (табл.3).

Таблица 3.

Результаты 1000 испытаний по двум альтернативным признакам (случай несовместности )

	Х=0	Х=1	Всего
У=0	904	48	952
У=1	48	0	48
Всего	952	48	1000

Судя по данным табл.3, дефекты всегда встречаются поодиночке - если есть один, то другого нет. В результате входной уровень дефектности по каждому признаку по-прежнему равен 0,048, в то время как доля дефектных изделий (т.е. имеющих хотя бы один дефект) вдвое выше, т.е. входной уровень дефектности для изделия в целом равен 0,096.

Случай независимости результатов контроля по двум независимым признакам (табл.4) лежит между крайними случаями поглощения и несовместности. Независимость альтернативных признаков обосновывается путем статистической проверки с помощью описанного ниже критерия n^1/2V.

Таблица 4.

Результаты 1000 испытаний по двум альтернативным признакам (случай независимости)

	Х=0	Х=1	Всего
У=0	909	43	952
У=1	43	5	48
Всего	952	48	1000

Согласно данным табл.4, входной уровень дефектности для каждого из двух альтернативных признаков по-прежнему равен 0,048, в то время как для изделий в целом он равен 0,091, т.е. на 5,2% меньше, чем в случае несовместности, и на 89,6% больше, чем в случае поглощения.

Проблема состоит в том, что таблицы и стандарты по статистическому приемочному контролю относятся обычно к случаю одного контролируемого параметра. А как быть, если контролируемых параметров несколько? Приведенные выше примеры показывают, что входной уровень дефектности изделия в целом не определяется однозначно по входным уровням дефектности отдельных его параметров.

Гипотеза независимости. Как должны соотноситься характеристики планов контроля по отдельным признакам с характеристиками плана контроля по двум (или многим) признакам одновременно? Рассмотрим распространенную рекомендацию - складывать уровни дефектности, т.е. считать, что уровень дефектности изделия в целом равен сумме уровней дефектности по отдельным его параметрам. Она, очевидно, опирается на гипотезу несовместности дефектов, а потому во многих случаях преувеличивает дефектность, следовательно, ведет к использованию излишне жестких планов контроля, что экономически невыгодно.

Зная специфику применяемых технологических процессов, в ряде конкретных случаев можно предположить, что дефекты по различным признакам возникают независимо друг от друга. Это предположение необходимо обосновывать по статистическим данным. Если же оно обосновано, следует рассчитывать входной уровень дефектности по формуле

1 - p₀₀ = p₁ + p₂ - p₁p₂,

соответствующей независимости признаков.

Итак, необходимо уметь проверять по статистическим данным гипотезу независимости двух альтернативных признаков. Речь идет о статистической проверке нулевой гипотезы

Н₀: p₁₁ = p₁ p₂ (1)

(что эквивалентно проверке равенства p₀₀ = (1 - p₁)(1 - p₂)). Нетрудно проверить, что гипотеза о справедливости равенства (1) эквивалентна гипотезе

Н₀ : p₀₀ p₁₁ - p₁₀ p₀₁ = 0. (2)

В простейшем случае предполагается, что проведено n независимых испытаний (X_i, Y_i), i = 1, 2, ..., n, в каждом из которых проконтролированы два альтернативных признака, а вероятности результатов контроля не меняются от испытания к испытанию. Общий вид статистических данных приведен в табл.5.

Таблица 5.

Общий вид результатов контроля по двум альтернативным признакам.

	Х=0	Х=1	Всего
У=0	a	b	a+b
У=1	c	d	c+d
Всего	a+c	b+d	n

В табл.5 величина a - число испытаний, в которых (Xi , Yi) = (0,0), величина b - число испытаний, в которых (Xi , Yi) = (1,0), и т.д.

Случайный вектор (a, b, c, d) имеет мультиномиальное распределение с числом испытаний n и вектором вероятностей исходов (p₀₀, p₁₀, p₀₁, p₁₁). Состоятельными оценками этих вероятностей являются дроби a/n, b/n, c/n, d/n соответственно. Следовательно, критерий проверки гипотезы (2) может быть основан на статистике

Z = ad - bc. (3)

Как вытекает из известной формулы для ковариаций мультиномиального вектора (см., например, формулу (6.3.5) в учебнике С.Уилкса [11] на с. 153),

М(Z) = n (p₁₀ p₀₁ - p₀₀ p₁₁), (4)

что равно 0 при справедливости гипотезы независимости (2).

Связь между переменными X и Y обычно измеряется коэффициентом, отличающимся от Z нормирующим множителем:

V = (ad - bc){(a + b)(a + c)(b + d)(c + d)}^-1/2

(см. классическую монографию М. Дж. Кендалла и А. Стьюарта [12, с.723]). При справедливости гипотезы Н₀ и больших n случайная величина nV² имеет хи-квадрат распределение с одной степенью свободы, а n^1/2V имеет стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1 (см. [12, с.736]). Значение n^1/2V для данных табл.4 равно 1,866, т.е на уровне значимости 0,05 гипотезу независимости следует принять.

Рассмотрим еще один пример. Пусть проведено 100 испытаний, результаты которых описаны в табл.6. Тогда

V = (50 . 20 - 10 . 20) (60 . 70 . 30 . 40)^-1/2 =

= (1000 - 200) . 5940000^-1/2 = 800 / 2245 = 0,35635,

n^1/2V = 3,5635 .

Таблица 6.

Результаты 100 испытаний по двум альтернативным признакам.

	Х=0	Х=1	Всего
У=0	50	10	60
У=1	20	20	40
Всего	70	30	100

Поскольку полученное значение n^1/2V превышает критическое значение при любом применяемом в статистике уровне значимости, то гипотезу о независимости признаков необходимо отклонить.

Проверка гипотез по совокупности малых выборок. К сожалению, приведенный простой метод годится не всегда. При статистическом анализе реальных данных возникают проблемы, связанные с отсутствием достаточно больших однородных выборок, т.е. выборок, в которых постоянны параметры вероятностных распределений. Реально единицы продукции представляются на контроль партиями, из каждой партии контролируются лишь несколько изделий, т.е. малая выборка. При этом от партии к партии меняются параметры p₀₀, p₁₀, p₀₁, p₁₁, описывающие уровень дефектности. Поэтому необходимы статистические методы, позволяющие проверять гипотезу независимости признаков по совокупности малых выборок. Построим один из возможных методов.

Рассмотрим вероятностную модель совокупности k малых выборок объемов n₁ , n₂ ,..., n_k соответственно. Пусть j -я выборка (X_jt, Y_jt), t = 1, 2,..., n_j, имеет распределение, задаваемое вектором параметров (p₀₀_j, p₁₀_j, p₀₁_j, p₁₁_j) в соответствии с ранее введенными обозначениями, j = 1,2,...,k . Будем проверять гипотезу

Н₀: p₁₁j = (p₁₀j + p₁₁j) (p₀₁j + p₁₁j), j = 1,2,...,k, (5)

или в эквивалентной формулировке

Н₀: p₁₁j p₀₀j - p₁₀j p₀₁j , j = 1,2,...,k . (6)

Основная идея состоит в нахождении асимптотического распределения статистики типа n^1/2V при росте числа k малых выборок. А именно, будем использовать статистику

S = g₁ Z₁ + g₂ Z₂ + ... + g_k Z_k , (7)

где Z₁, Z₂, ..., Z_k - статистики, рассчитанные по формуле (3) для каждой из k выборок, т.е. Z_j = a_jd_j - b_jc_j, j = 1,2,...,k, а g₁ , g₂ , ... , g_k - некоторые весовые коэффициенты, которые, в частности, могут совпадать. Поскольку

М(S) = g₁ М(Z₁) + g₂ М(Z₂) + ... + g_k М(Z_k),

то при справедливости гипотезы независимости (5) - (6) имеем М(S) = 0, поскольку

M(Z_j) = 0, j = 1, 2, ..., k,

при всех возможных значениях вектора параметров (p₀₀_j, p₁₀_j, p₀₁_j, p₁₁_j) согласно соотношению (4). Поскольку слагаемые в сумме (7) независимы, то при росте k случайная величина S в силу Центральной Предельной Теоремы является асимптотически нормальной. Дисперсия этой величины равна сумме дисперсий слагаемых:

. (8)

Для оценивания дисперсии S необходимо использовать несмещенные оценки дисперсий в каждой из k выборок (и в этом одна из основных "изюминок" разбираемого метода). Предположим, что построены статистики Tj такие, что

М(Tj) = D(Zj) , j = 1, 2, ..., k. (9)

Тогда при некоторых математических "условиях регулярности", на которых нет необходимости здесь останавливаться, несмещенная оценка дисперсии статистики S, имеющая согласно формулам (8) и (9) вид

в силу закона больших чисел такова, что дробь D(S)/L приближается к 1 при росте числа выборок (сходимость по вероятности). Отсюда следует, что распределение случайной величины Q = SL^-1|2 приближается при росте числа выборок к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1. Следовательно, критерий проверки гипотезы (5) - (6) независимости признаков, состоящий в том, что при (-1,96) < Q < 1,96 гипотеза принимается, а при Q , выходящих за пределы интервала (-1,96; 1,96), гипотеза отклоняется, имеет уровень значимости, приближающийся к 0,05 при росте числа выборок. Мощность этого критерия зависит от значения величины М(S)D(S)^-1|2 при альтернативной гипотезе.

Для реализации намеченного плана осталось научиться несмещенно оценивать D(Zj). К сожалению, в литературе по несмещенному оцениванию не рассматривают случай мультиномиального распределения, поэтому кратко опишем процедуру построения несмещенной оценки D(Zj). Поскольку согласно формулам (3) и (4)

(10)

то для вычисления D(Zj) достаточно найти входящие в правую часть формулы (10) начальные смешанные моменты мультиномиального распределения (четвертого порядка). Теоретически это просто - известен вид характеристической функции мультиномиального распределения (см., например, формулу (6.3.4) в монографии [11, с.152]), а начальные смешанные моменты равны значениям ее соответствующих производных в 0, деленным на нужную степень мнимой единицы (формула (5.2.3) в монографии [11, с.131]). Например, с помощью описанной процедуры после некоторых вычислений получаем, что (для упрощения записи здесь и далее опустим индекс j)

(11)

Формула (11) показывает, что начальные смешанные моменты мультиномиального распределения являются многочленами от параметров p₁₁, p₀₀, p₁₀, p₀₁ этого распределения, однако конкретный вид этих многочленов достаточно громоздок, поэтому не будем их здесь выписывать, ограничившись формулой (11) в качестве образца.

Как вытекает из формул (10) и (11), для построения несмещенной оценки D(Zj) достаточно научиться несмещенно оценивать произведения типа , где целые неотрицательные числа r, m не превосходят 2. Эта задача решается, начиная с меньших степеней r и m. Известно, что для ковариации мультиномиального вектора

М(ad) = - n p₀₀ p₁₁ (12)

(см., например, формулу (6.3.5) в монографии [11, с.153]), а потому несмещенной оценкой для p₀₀p₁₁ является (-ad/n). Далее, поскольку справедлива аналогичная (11) формула

, (13)

то с помощью формулы (12) преобразуем формулу (13) к виду

, (14)

т.е. несмещенной оценкой является ad(a+n-1){n(n-1)(n-2)}^-1.

Следующий шаг - аналогичным образом с помощью формул (12) и (14) получаем несмещенную оценку для , а затем и для D(Z_j). Промежуточные формулы опущены из-за громоздкости. Окончательный результат таков:

Как легко видеть,

т.е. в случае одной выборки предлагаемый метод проверки независимости совпадает с классическим.

Таким образом, общая идея рассматриваемого метода проверки гипотез по совокупности малых выборок состоит в том, что подбирается статистика, математическое ожидание которой для каждой малой выборки равно 0 при справедливости проверяемой гипотезы. Затем для каждой выборки строится несмещенная оценка дисперсии этой статистики. Итоговая статистика критерия для проверки гипотезы - это сумма рассматриваемых статистик для всех малых выборок, деленная на квадратный корень из суммы всех несмещенных оценок дисперсий рассматриваемых статистик. При справедливости нулевой гипотезы эта итоговая статистика имеет в асимптотике стандартное нормальное распределение (при выполнении некоторых математических "условий регулярности", которые обычно выполняются при анализе реальных статистических данных).

Впервые такой способ проверки гипотез по совокупности малых выборок был предложен в монографии [1, раздел 4.5]. Нестандартность постановки состоит в том, что число неизвестных параметров растет пропорционально объему данных, т.е. имеет место т.н. "асимптотика Колмогорова", или асимптотика растущей размерности. Дальнейшее развитие применительно к данных типа "да" - "нет" (или "годен" - "дефектен") шло в рамках теории люсианов как части статистики объектов нечисловой природы (см. следующий раздел 3.4).

Оглавление