Бизнес-портал для руководителей, менеджеров, маркетологов, экономистов и финансистов

Поиск на AUP.Ru


Объявления

Орлов А.И.
Нечисловая статистика

М.: МЗ-Пресс, 2004.

Предыдущая

Глава 1. Нечисловые статистические данные

1.1. Количественные и категоризованные данные

          Статистические методы – это методы анализа данных, причем обычно достаточно большого количества данных. Статистические данные могут иметь различную природу. Исторически самыми ранними были два вида данных – сведения о числе объектов, удовлетворяющих тем или иным условиям, и числовые результаты измерений.

          Первый из этих видов данных до сих пор главенствует в статистических сборниках Госкомстата РФ. Такого рода данные часто называют категоризованными, поскольку о каждом из рассматриваемых объектов известно, в какую из нескольких заранее заданных категорий он попадает. Примером является информация Госкомстата РФ о населении страны, с разделением по возрастным категориям и полу. Часто при составлении таблиц жертвуют информацией, заменяя точное значение измеряемой величины на указание интервала группировки, в которую это значение попадает. Например, вместо точного возраста человека используют лишь один из указанных в таблице возрастных интервалов.

          Второй наиболее распространенный вид данных – количественные данные, рассматриваемые как действительные числа. Таковы результаты измерений, наблюдений, испытаний, опытов, анализов. Количественные данные обычно описываются набором чисел (выборкой), а не таблицей.

          Нельзя утверждать, что категоризованные данные соответствуют первому этапу исследования, а числовые – следующему, на котором используются более совершенные методы измерения. Дело в том, что человеку свойственно давать качественные ответы на возникающие в его практической деятельности вопросы. Примером является таблица[1], посвященная анализу сильных и слабых сторон конкретной Компании (табл.1). Она составлена одним из руководителей этой Компании и предназначена для использования при управлении Компанией.

Таблица 1.

Оценка сильных и слабых сторон  Компании

Показатели, описывающие различные стороны работы Компании

Оценка показателя

(По отношению к предприятиям отрасли)

Важность (вес) показателя

Очень высо-кая

Вы-со-кая

Сре-дняя

Низ-кая

Очень низ-кая

Вы-со-кая

Сре-дняя

Низ-кая

1

2

3

4

5

6

7

8

9

1. Финансы

 

1.1. Оценка структуры активов

   

Х

   

Х

   

1.2. Инвестиционная привлекательность

   

Х

   

Х

   

1.3. Доход на активы

     

Х

 

Х

   

1.4. Норма прибыли

       

Х

Х

   

1.5. Доход на вложенный капитал

     

Х

   

Х

 

2. Производство

 

2.1. Использования оборудования

   

Х

     

Х

 

2.2. Производственные мощности

   

Х

       

Х

2.3. Численность

   

Х

     

Х

 

2.4. Система контроля качества

 

Х

     

Х

   

2.5. Возможность расширения производства

   

Х

   

Х

   

1.6. Износ оборудования

     

Х

 

Х

   

3. Организация и управление

 

3.1. Численность ИТР и управленческого персонала

   

Х

   

Х

   

3.2. Скорость реакции управления на изменения во внешней среде

   

Х

   

Х

   

3.3. Четкость разделения полномочий и функций

     

Х

   

Х

 

3.4. Качество используемой в управлении информации

   

Х

   

Х

   

3.5. Гибкость оргструктуры управления

 

Х

     

Х

   

4. Маркетинг

 

4.1. Доля рынка

 

Х

     

Х

   

4.2. Репутация Компании

 

Х

     

Х

   

4.3. Престиж торговой марки

   

Х

     

Х

 

4.4. Стимулирование сбыта

 

Х

     

Х

   

4.5. Численность сбытового персонала

     

Х

     

Х

4.6. Уровень цен

   

Х

   

Х

   

4.7. Уровень сервиса

 

Х

     

Х

   

4.8. Число клиентов

 

Х

       

Х

 

4.9. Качество поступающей информации

   

Х

     

Х

 

5. Кадровый состав

 

5.1. Уровень квалификации производственного персонала

 

Х

     

Х

   

5.2. Расходы по подготовке и переподготовке персонала

 

Х

     

Х

   

5.3. Уровень подготовки сбытового персонала в технической области

     

Х

   

Х

 

6. Технология

               

6.1. Применяемые стандарты

 

Х

         

Х

6.2. Новые продукты

   

Х

     

Х

 

6.3. Расходы на НИОКР

 

Х

       

Х

 

          Ясно, что вполне можно превратить в числа значения признаков, названия которых приведены в столбце «Показатели Компании», однако этот переход будет зависеть от исследователя, носить неизбежный налет субъективизма. Отметим, что важность (вес) показателей также оценивается качественно, а не количественно.

          Иногда нецелесообразно однозначно относить данные к категоризованным или количественным. Например, в Ветхом Завете, в Четвертой книге Моисеева «Числа» указывается количество воинов в различных коленах. С одной стороны, это типичные категоризованные данные, градациями служат названия колен. С другой стороны, эти данные можно рассматривать как количественные, как выборку, их вполне естественно складывать, вычислять среднее арифметическое и т.п.

          Описанная ситуация типична. Существует весьма много различных видов статистических данных. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента, то получаем т.н. цензурированные  данные, состоящие из набора чисел – продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Такого рода данные часто используются при оценке и контроле надежности технических устройств.

          Описание вида данных и, при необходимости, механизма их порождения – начало любого статистического исследования.

          В простейшем случае статистические данные – это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке. Используют и более сложные признаки, перечень которых будет расширяться по мере развертывания изложения в учебнике.

          При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат – числа, а часть – качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

          Одним элементом выборки, т.е. одним измерением, может быть и функция в целом. Например, электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

          Элементами выборки могут быть и бинарные отношения. Например, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.

          Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных – числовые и нечисловые. Соответственно прикладная статистика разбивается на две части – числовую статистику и нечисловую статистику (ее называют также статистикой нечисловых данных или статистикой объектов нечисловой природы).

          Числовые статистические данные – это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы (см. приложение 3).

          Нечисловые статистические данные – это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д..

          Сведем информацию об основных областях прикладной статистики в табл.2. Отметим, что модели порождения цензурированных данных входят в состав каждой из рассматриваемых областей.

Таблица 2.

Области прикладной статистики

№ п/п

Вид статистических данных

Область прикладной статистики

1

Числа

Статистика (случайных) величин

2

Конечномерные вектора

Многомерный статистический анализ

3

Функции

Статистика случайных процессов и временных рядов

4

Объекты нечисловой природы

Нечисловая статистика



[1] Данные взяты из выпускной работы А.А. Пивня «Анализ и перспективы развития маркетинга ЗАО «Компания Новгородский завод «ГАРО» (Академия народного хозяйства при правительстве Российской Федерации, 2003).

Предыдущая

Объявления