Прикладная статистика: Асимптотика решений экстремальных статистических задач

Орлов А.И.
Прикладная статистика
М.: Издательство «Экзамен», 2004.

Часть 2. Основные проблемы прикладной статистики

2.2.3. Асимптотика решений экстремальных статистических задач

Если проанализировать приведенные выше в подразделе 2.1.5 постановки и результаты, касающиеся эмпирических и теоретических средних и законов больших чисел, то становится очевидной возможность их обобщения. Так, доказательства теорем практически не меняются, если считать, что функция f(x,y) определена на декартовом произведении бикомпактных пространств X и Y, а не на X². Тогда можно считать, что элементы выборки лежат в Х, а Y - пространство параметров, подлежащих оценке.

Обобщения законов больших чисел. Пусть, например, выборка х₁ = х₁(ω), х₂ = х₂(ω), … , х_n = х_n(ω) взята из распределения с плотностью p(x,y), где у – неизвестный параметр. Если положить

f(x,y) = - ln p(x,y),

то задача нахождения эмпирического среднего

переходит в задачу оценивания неизвестного параметра y методом максимального правдоподобия

Соответственно законы больших чисел переходят в утверждения о состоятельности этих оценок в случае пространств X и Y общего вида. При такой интерпретации функция f(x,y) уже не является расстоянием или показателем различия. Однако для доказательства сходимости оценок к соответствующим значениям параметров это и не требуется. Достаточно непрерывности этой функции на декартовом произведении бикомпактных пространств X и Y.

В случае функции f(x,y) общего вида можно говорить об определении в пространствах произвольной природы оценок минимального контраста и их состоятельности. При этом при каждом конкретном значении параметра у справедливо предельное соотношение

где f – функция контраста. Тогда состоятельность оценок минимального контраста вытекает из справедливости предельного перехода

Частными случаями оценок минимального контраста являются, устойчивые (робастные) оценки Тьюки-Хубера (см. ниже), а также оценки параметров в задачах аппроксимации (параметрической регрессии) в пространствах произвольной природы.

Можно пойти и дальше в обобщении законов больших чисел. Пусть известно, что при каждом конкретном y при безграничном росте n имеет быть сходимость по вероятности

f_n(, y) f(y),

где f_n(ω, y) – последовательность случайных функций на пространстве Y, а f(y) – некоторая функция на У. В каких случаях и в каком смысле имеет место сходимость

Argmin {f_n(, y), yX} Argmin {f(y), y X}?

Другими словами, когда из поточечной сходимости функций вытекает сходимость точек минимума?

Причем здесь можно под n понимать натуральное число. А можно рассматривать сходимость по направленному множеству (подраздел 1.4.3), или же, что практически то же самое – «сходимость по фильтру» в смысле Картана и Бурбаки [19, с.118]. В частности, можно описывать ситуацию вектором, координаты которого - объемы нескольких выборок, и все они безгранично растут. В классической математической статистике такие постановки рассматривать не любят.

Поскольку, как уже отмечалось, основные задачи прикладной статистики можно представить в виде оптимизационных задач, то ответ на поставленный вопрос о сходимости точек минимума дает возможность единообразного подхода к изучению асимптотики решений разнообразных экстремальных статистических задач. Одна из возможных формулировок, основанная на бикомпактности пространств Х и У и нацеленная на изучение оценок минимального контраста, дана и обоснована выше. Другой подход развит в работе [20]. Он основан на использовании понятий асимптотической равномерной разбиваемости и координатной асимптотической равномерной разбиваемости пространств. С помощью указанных подходов удается стандартным образом обосновывать состоятельность оценок характеристик и параметров в основных задачах прикладной статистики.

Рассматриваемую тематику можно развивать дальше, в частности, рассматривать аналоги законов больших чисел в случае пространств, не являющихся бикомпактными, а также изучать скорость сходимости Argmin{f_n(x(), y), yX} к Argmin{f(y), y X}.

Приведем примеры применения результатов о предельном поведении точек минимума.

Задача аппроксимации зависимости (параметрической регрессии). Пусть X и Y – некоторые пространства. Пусть имеются статистические данные - n пар (x_k, y_k), где x_k X, y_k Y, k = 1, 2, …, n. Задано параметрическое пространство Θ произвольной природы и семейство функций g(x,θ): XЧΘ → Y. Требуется подобрать параметр θ Θ так. чтобы g(x_k ,θ) наилучшим образом приближали y_k, k = 1, 2, …, n. Пусть f_k – последовательность показателей различия в У. При сделанных предположениях параметр θ естественно оценивать путем решения экстремальной задачи:

. (1)

Часто, но не всегда, все f_k совпадают. В классической постановке, когда Х = R^k, У = R¹, функции f_k различны при неравноточных наблюдениях, например, когда число опытов меняется от одной точки х проведения опытов к другой.

Если f_k(y₁,y₂) = f(y₁,y₂) = (y₁- y₂)², то получаем общую постановку метода наименьших квадратов (см. подробности в главе 3.2):

В рамках детерминированного анализа данных остается единственный теоретический вопрос – о существовании θ_n. Если все участвующие в формулировке задачи (1) функции непрерывны, а минимум берется по бикомпакту, то θ_n существует. Есть и иные условия существования θ_n [20-22].

При появлении нового наблюдения х в соответствии с методологией восстановления зависимости рекомендуется выбирать оценку соответствующего у по правилу

у* = g(x, θ_n).

Обосновать такую рекомендацию в рамках детерминированного анализа данных невозможно. Это можно сделать только в вероятностной теории, равно как и изучить асимптотическое поведение θ_n, доказать состоятельность этой оценки.

Кпк и в классическом случае, вероятностную теорию целесообразно строить для трех различных постановок.

1. Переменная х – детерминированная (например, время), переменная у – случайная, ее распределение зависит от х.

2. Совокупность (x_k, y_k), k = 1, 2, …, n, – выборка из распределения случайного элемента со значениями в ХЧУ.

3. Имеется детерминированный набор пар (x_k₀, y_k₀), k = 1, 2, …, n, результат наблюдения (x_k, y_k) является случайным элементом, распределение которого зависит от (x_k₀, y_k₀). Это – постановка конфлюэнтного анализа.

Во всех трех случаях

однако случайность входит в правую часть по-разному в зависимости от постановки, от которой зависит и определение предельной функции f(θ).

Проще всего выглядит f(θ) в случае второй постановки при f_k≡ f:

f(θ) = Mf(g(x₁,θ),y).

В случае первой постановки

в предположении существования указанного предела. Ситуация усложняется для третьей постановки:

Во всех трех случаях на основе общих результатов о поведении решений экстремальных статистических задач можно изучить [20-22] асимптотику оценок θ_n. При выполнении соответствующих внутриматематических условий регулярности оценки оказываются состоятельными, т.е. удается восстановить зависимость.

Аппроксимация и регрессия. Соотношение (1) дает решение задачи аппроксимации. Поясним, как эта задача соотносится с нахождением регрессии. Согласно [23] для случайной величины (ξ, η) со значениями в ХЧУ регрессией η на ξ относительно меры близости f естественно назвать решение задачи

Mf(g(ξ), η) → , (2)

где f: YЧY → R¹, g: X → Y, минимум берется по множеству всех измеримых функций.

Можно исходить и из другого определения. Для каждого хХ рассмотрим случайную величину η(х), распределение которой является условным распределением η при условии ξ = х. В соответствии с определением математического ожидания в пространстве общей природы назовем условным математическим ожиданием решение экстремальной задачи

Оказывается, при обычных предположениях измеримости решение задачи (2) совпадает с . (Внутриматематические уточнения типа «равенство имеет место почти всюду» здесь опущены.)

Если заранее известно, что условное математическое ожидание принадлежит некоторому параметрическому семейству g(x,θ), то задача нахождения регрессии сводится к оцениванию параметра θ в соответствии с рассмотренной выше второй постановкой вероятностной теории параметрической регрессии. Если же нет оснований считать, что регрессия принадлежит параметрическому семейству, то можно использовать непараметрические оценки регрессии. Они строятся с помощью непараметрических оценок плотности (см. главу 2.1).

Пусть ν₁ – мера в Х, ν₂ – мера в У, а их прямое произведение ν = ν₁Чν₂ – мера в ХЧУ. Пусть g(x,y) – плотность случайного элемента (ξ,η) по мере ν. Тогда условная плотность g(y|x) распределения η при условии ξ=х имеет вид

(3)

(в предположении, что интеграл в знаменателе отличен от 0). Следовательно,

а потому

Заменяя g(x,y) в (3) непараметрической оценкой плотности g_n(x,y), получаем оценку условной плотности

. (4)

Если g_n(x,y) – состоятельная оценка g(x,y), то числитель (4) сходится к числителю (3). Сходимость знаменателя (4) к знаменателю (3) обосновывается с помощью предельной теории статистик интегрального типа (см главу 2.3). В итоге получаем утверждение о состоятельности непараметрической оценки (4) условной плотности (3).

Непараметрическая оценка регрессии ищется как

Состоятельность этой оценки следует из приведенных выше общих результатов об асимптотическом поведении решений экстремальных статистических задач.

Применение к методу главных компонент. Исходные данные – набор векторов ξ₁, ξ₂, … , ξ_n, лежащих в евклидовом пространстве R^k размерности k. Цель состоит в снижении размерности, т.е. в уменьшении числа рассматриваемых показателей. Для этого берут всевозможные линейные ортогональные нормированные центрированные комбинации исходных показателей, получают k новых показателей, из них берут первые m, где m < k (подробности см. в главе 3.2). Матрицу преобразования С выбирают так, чтобы максимизировать информационный функционал

, (5)

где x(i), i = 1, 2, … , k, - исходные показатели; исходные данные имеют вид ξ_j = (x_j(1), x_j(2), … , x_j(k)), j = 1, 2, … , n; при этом z(α), α = 1, 2, … , m, - комбинации исходных показателей, полученные с помощью матрицы С. Наконец, s²(z(α)), α = 1, 2, … , m, s²(x(i)), i = 1, 2, … , k, - выборочные дисперсии переменных, указанных в скобках.

Укажем подробнее, как новые показатели (главные компоненты) z(α) строятся по исходным показателям x(i) с помощью матрицы С:

где

Матрица C = ||c_αβ|| порядка mЧk такова, что

(6)

(нормированность),

(7)

(ортогональность).

Решением основной задачи метода главных компонент является

где минимизируемая функция определена формулой (5), а минимизация проводится по всем матрицам С, удовлетворяющим условиям (6) и (7).

Вычисление матрицы С_n – задача детерминированного анализа данных. Однако, как и в иных случаях, например, для медианы Кемени, возникает вопрос об асимптотическом поведении С_n. Является ли решение основной задачи метода главных компонент устойчивым, т.е. существует ли предел С_n при n → ∞? Чему равен этот предел?

Ответ, как обычно, может быть дан только в вероятностной теории. Пусть ξ₁, ξ₂, … , ξ_n - независимые одинаково распределенные случайные вектора. Положим

где матрица C = ||c_αβ|| удовлетворяет условиям (6) и (7). Введем функцию от матрицы

Легко видеть, что при n → ∞ и любом С

Рассмотрим решение предельной экстремальной задачи

Естественно ожидать, что

Действительно, это соотношение вытекает из приведенных выше общих результатов об асимптотическом поведении решений экстремальных статистических задач.

Таким образом, теория, развитая для пространств произвольной природы, позволяет единообразным образом изучать конкретные процедуры прикладной статистики.

Оглавление