Орлов А.И.
Нечисловая статистика
М.: МЗ-Пресс, 2004.
Предыдущая |
Введение. Нечисловая статистика - основа статистических методов
В.1. О развитии статистических методов
Четыре
столетия статистики. Впервые термин «статистика» появился в «Гамлете» Шекспира
(
В течение следующих 400 лет термин «статистика» понимали и понимают по-разному. В работе [1] собрано более 200 определений этого термина, некоторые из них обсуждаются ниже.
Вначале
под статистикой понимали описание экономического и политического состояния
государства или его части. Например, к
Однако
постепенно термин «статистика» стал использоваться более широко. По Наполеону
Бонапарту «Статистика – это бюджет вещей». Тем самым статистические методы были
признаны полезными не только для административного управления, но и на уровне
отдельного предприятия. Согласно формулировке
В
ХХ в. статистику обычно рассматривают как самостоятельную научную дисциплину.
Статистика есть совокупность методов и принципов, согласно которым проводится
сбор, анализ, сравнение, представление и интерпретация числовых данных (1925).
В
1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
3) разработка приемов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики».
Термин «статистика» употребляют еще в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, в специальной литературе статистикой называют функцию от результатов наблюдений, используемую для оценивания характеристик и параметров распределений и проверки гипотез.
Чтобы подойти к термину «нечисловая статистика», кратко рассмотрим историю реальных статистических работ.
Краткая история статистических методов. Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете (см., например, Книгу Чисел). Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации.
В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делает Госкомстат РФ. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц и диаграмм. Однако у Госкомстата РФ нет продвижения по сравнению с работами российских статистиков конца девятнадцатого - начала двадцатого веков (типовой монографией тех времен можно считать книгу [2], которая в настоящее время ещё легко доступна).
Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов, к лучшим из них относится очерк [3].
В
Современный
этап развития статистических методов можно отсчитывать с
Разработанную в первой трети ХХ в. теорию анализа данных называем параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция.
Именно
из таких соображений критиковал параметрическую статистику академик АН СССР
С.Н.Бернштейн в
Наукометрия
статистических исследований. В рамках движения за создание Всесоюзной
статистической ассоциации (учреждена в
Традиционный предрассудок состоит в том, что каждый новый результат, полученный исследователем - это кирпич в непрерывно растущее здание науки, который непременно будет проанализирован и использован научным сообществом, а затем и при решении практических задач. Реальная ситуация - совсем иная. Основа профессиональных знаний исследователя, инженера, экономиста менеджера, социолога, историка, геолога, медика закладывается в период обучения. Затем знания пополняются в том узком направлении, в котором работает специалист. Следующий этап - их тиражирование новому поколению. В результате вузовские учебники отстоят от современного развития на десятки лет. Так, учебники по математической статистике, согласно мнению экспертов, по научному уровню в основном соответствуют 40-60-м годам ХХ в. А потому середине ХХ в. соответствует большинство вновь публикуемых исследований и тем более - прикладных работ. Одновременно приходится признать, что результаты, не вошедшие в учебники, независимо от их ценности почти все забываются.
Активно продолжается развитие тупиковых направлений. Психологически это понятно. Приведу пример из своего опыта. По заказу Госстандарта я разработал методы оценки параметров гамма-распределения [14]. Поэтому мне близки и интересны работы по оцениванию параметров по выборкам из распределений, принадлежащих тем или иным параметрическим семействам, понятия функции максимального правдоподобия, эффективности оценок, использование неравенства Рао-Крамера и т.д. К сожалению, я знаю, что это - тупиковая ветвь теории статистики, поскольку реальные данные не подчиняются каким-либо параметрическим семействам, надо применять иные статистические методы - непараметрические. Понятно, что специалистам по параметрической статистике, потратившим многие годы на совершенствование в своей области, психологически трудно согласиться с этим утверждением. В том числе и мне. Но необходимо идти вперед.
Появление
прикладной статистики. В нашей стране термин «прикладная статистика» вошел
в широкое употребление в
В
нашей стране термин «прикладная статистика» использовался и ранее
Прикладная статистика и математическая статистика – это две разные научные дисциплины. Различие четко проявляется и при преподавании. Курс математической статистики состоит в основном из доказательств теорем, как и соответствующие учебные пособия. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся как обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе).
Статистические методы. В области статистического анализа данных естественно выделить три вида научной и прикладной деятельности (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):
а) разработка и исследование методов прикладной статистики, предназначенных для анализа данных различной природы;
б) разработка и исследование вероятностно-статистических моделей в соответствии с конкретными потребностями науки и практики (моделей управления качеством, сбора и анализа оценок экспертов и др.);
в) применение статистических методов и моделей для анализа конкретных данных (например, данных о росте цен с целью изучения инфляции).
Кратко рассмотрим три только что выделенных вида научной и прикладной деятельности. По мере движения от а) к в) сужается широта области применения статистического метода, но при этом повышается его значение для анализа конкретной ситуации. Если работам вида а) соответствуют научные результаты, значимость которых оценивается по общенаучным критериям, то для работ вида в) основное - успешное решение задач конкретной области. Работы вида б) занимают промежуточное положение, поскольку, с одной стороны, теоретическое изучение статистических моделей может быть достаточно сложным и математизированным (см., например, монографию [6]), с другой - результаты представляют интерес не для всей науки, а лишь для некоторого направления в ней.
Структура
современной статистики. Внутренняя структура статистики как науки была
выявлена и обоснована при создании в
К настоящему времени очевидно четко выраженное размежевание этих двух научных направлений. Математическая статистика исходит из сформулированных в 1930-50 гг. постановок математических задач, происхождение которых связано с анализом конкретных статистических данных. Начиная с 70-х годов ХХ в. исследования по математической статистике посвящены обобщению и дальнейшему математическому изучению этих задач. Поток новых математических результатов (теорем) не ослабевает, но новые практические рекомендации по обработке статистических данных при этом почти не появляются. Можно сказать, что математическая статистика как научное направление замкнулась внутри себя.
Сам термин «прикладная статистика» возник как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Рассматриваемое соотношение математической и прикладной статистик отнюдь не являются исключением. Как правило, математические дисциплины проходят в своем развитии ряд этапов. Вначале в какой-либо прикладной области возникает необходимость в применении математических методов и накапливаются соответствующие эмпирические приемы (для геометрии это - "измерение земли", т.е. землемерие, в Древнем Египте). Затем возникает математическая дисциплина со своей аксиоматикой (для геометрии это - время Евклида). Затем идет внутриматематическое развитие и преподавание (считается, что большинство результатов элементарной геометрии получено учителями гимназий в XIX в.). При этом на запросы исходной прикладной области перестают обращать внимание, и та порождает новые научные дисциплины (сейчас "измерением земли" занимается не геометрия, а геодезия и картография). Затем научный интерес к исходной дисциплине иссякает, но преподавание по традиции продолжается (элементарная геометрия до сих пор изучается в средней школе, хотя трудно понять, в каких практических задачах может понадобиться, например, теорема о том, что высоты треугольника пересекаются в одной точке). Следующий этап - окончательное вытеснение дисциплины из реальной жизни в историю науки (объем преподавания элементарной геометрии в настоящее время постепенно сокращается, в частности, ей все меньше уделяется внимания на вступительных экзаменах в вузах). К интеллектуальным дисциплинам, уже закончившим свой жизненный путь, относится средневековая схоластика. Как справедливо отмечает проф. МГУ им. М.В. Ломоносова В.Н. Тутубалин [16], теория вероятностей и математическая статистика успешно двигаются по ее пути - вслед за элементарной геометрией.
Подведем итог. Хотя статистические данные собираются и анализируются с незапамятных времен (см., например, Книгу Чисел в Ветхом Завете), современная математическая статистика как наука была создана, по общему мнению специалистов, сравнительно недавно - в первой половине ХХ в. Именно тогда были разработаны основные идеи и получены результаты, излагаемые ныне в учебных курсах математической статистики. После чего специалисты по математической статистике занялись внутриматематическими проблемами, а для теоретического обслуживания проблем практического анализа статистических данных стала формироваться новая дисциплина - прикладная статистика.
В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Разрыв между математической и прикладной статистикой проявляется, в частности, в том, что большинство методов, включенных в популярные среди исследователей статистические пакеты программ (например, в заслуженные Statgraphics и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической статистике. В результате специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки, в том числе в таких ответственных документах, как государственные стандарты по статистическим методам. Анализ грубых ошибок в стандартах дан в статье [17].
Что дает прикладная статистика народному хозяйству? Так называлась статья [18], в которой приводились многочисленные примеры успешного использования методов прикладной математической статистики при решении практических задач. Перечень примеров можно продолжать практически безгранично (см., например, недавнюю сводку [19]).
Методы прикладной статистики используются в зарубежных и отечественных экономических и технических исследованиях, работах по управлению (менеджменту), в медицине, социологии, психологии, истории, геологии и других областях. Их применение дает заметный экономический эффект. Например, в США - не менее 20 миллиардов долларов ежегодно только в области статистического контроля качества. Недавно появилась концепция «Шесть сигм» - система управления компанией или ее подразделениями на основе интенсивного использования статистических методов [20]. Внедрение «Шести сигм» дает значительный экономический эффект. Исполнительный директор General Electric Джек Уэлч подчеркнул в ежегодном докладе, что всего за три года «Шесть сигм» сэкономили компании более 2 миллиардов долларов.
В
Публикации по новым статистическим методам, по их применениям в технико-экономических исследованиях, в инженерном деле постоянно появляются, например, в журнале "Заводская лаборатория", в секции "Математические методы исследования". Надо назвать также журналы "Автоматика и телемеханика" (издается Институтом проблем управления Российской академии наук), "Экономика и математические методы" (издается Центральным экономико-математическим институтом РАН).
Однако
необходимо констатировать, что для большинства менеджеров, экономистов и
инженеров прикладная статистика и другие статистические методы является пока
экзотикой. Это объясняется тем, что в вузах современным статистическим методам
почти не учат. Во всяком случае, по состоянию на
Этому
выводу не мешает то, что в вузовских программах обычно есть два курса,
связанных со статистическими методами. Один из них - "Теория вероятностей
и математическая статистика". Этот небольшой курс обычно читают
специалисты с математических кафедр. Они успевают дать лишь общее представление
об основных понятиях математической статистики. Кроме того, внимание
математиков обычно сосредоточено на внутриматематических проблемах, их больше
интересует доказательства теорем, а не применение современных статистических
методов в задачах экономики и менеджмента. Другой курс - "Статистика"
или "Общая теория статистики", входящий в стандартный блок
экономических дисциплин. Фактически он является введением в прикладную статистику
и содержит первые начала эконометрических методов (по состоянию на
Прикладная статистика и другие статистические методы опираются на два названных вводных курса. Цель - вооружить специалиста современным статистическим инструментарием. Специалист – это инженер, экономист, менеджер, геолог, медик, социолог, психолог, историк, химик, физик и т.д. Во многих странах мира - Японии и США, Франции и Швейцарии, Перу и Ботсване и др. - статистическим методам обучают в средней школе. ЮНЕСКО постоянно проводят конференции по вопросам такого обучения [22]. В СССР и СЭВ, а теперь - по плохой традиции - и в России игнорируют этот предмет в средней школе и лишь слегка затрагивают его в высшей. Результат на рынке труда очевиден - снижение конкурентоспособности специалистов.
Проблемы прикладной статистики и других статистических методов постоянно обсуждаются специалистами. Широкий интерес вызвала дискуссия в журнале «Вестник статистики», в рамках которой были, в частности, опубликованы статьи [9, 18]. На появление в нашей стране прикладной статистики отреагировали и в США [23].
В нашей стране получены многие фундаментальные результаты прикладной статистики. Огромное значение имеют работы академика РАН А.Н. Колмогорова [24]. Во многих случаях именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений прикладной статистики. Зачастую еще 50-70 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться. Как правило, его работы не устарели и сейчас. Свою жизнь посвятили прикладной статистике члены-корреспонденты АН СССР Н.В. Смирнов и Л.Н. Большев. В настоящем учебнике постоянно встречаются ссылки на лучшую публикацию ХХ в. по прикладной статистике – составленные ими подробно откомментированные «Таблицы …» [25].
Основное продвижение в статистике конца ХХ в. - это создание нечисловой статистики. Ее называют также статистикой нечисловых данных или статистикой объектов нечисловой природы.
Предыдущая |