Вариация — это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение и является необходимым звеном в экономическом анализе. Необходимость изучения вариации связана с тем, что средняя, являясь равнодействующей, выполняет свою основную задачу с разной степенью точности: чем меньше различия индивидуальных значений признака, подлежащих осреднению, тем однороднее совокупность, а, следовательно, точнее и надежнее средняя, и наоборот. Следовательно по степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию.
Изменение вариации признака в совокупности осуществляется с помощью абсолютных и относительных показателей.
Абсолютные показатели вариации включают:
размах вариации
среднее линейное отклонение
дисперсию
среднее квадратическое отклонение
Размах вариации (R)
Размах вариации — это разность между максимальным и минимальным значениями признака
Он показывает пределы, в которых изменяется величина признака в изучаемой совокупности.
Пример
Опыт работы у пяти претендентов на предшествующей работе составляет: 2, 3, 4, 7 и 9 лет.
Решение: размах вариации = 9 — 2 = 7 лет.
Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность .
При этом во избежании превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю , либо возводить значения отклонений в квадрат
Среднее линейное и квадратическое отклонение
Среднее линейное отклонение — это средняя арифметическая из абсолютных отклонений отдельных значений признака от средней.
Среднее линейное отклонение простое:
Опыт работы у пяти претендентов на предшествующей работе составляет: 2, 3, 4, 7 и 9 лет.
В нашем примере: лет;
Ответ: 2, 4 года.
Среднее линейное отклонение взвешенное применяется для сгруппированных данных:
Среднее линейное отклонение в силу его условности применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе качества продукции с учетом технологических особенностей производства).
Среднее квадратическое отклонение
Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, которое называют стандартом (или стандартным отклонение). Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической:
Среднее квадратическое отклонение простое:
Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:
Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение: ~ 1, 25.
Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.
Дисперсия
Дисперсия - представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины.
Дисперсия простая:
В нашем примере:
Дисперсия взвешенная:
Более удобно вычислять дисперсию по формуле:
которая получается из основной путем несложных преобразований. В этом случае средний квадрат отклонений равен средней из квадратов значений признака минус квадрат средней.
Для несгрупиированных данных:
Для сгруппированных данных:
Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие — нулем (0). Долю единиц, обладающих изучаемым признаком, обозначают буквой , а долю единиц, не обладающих этим признаком — через . Учитывая, что p + q = 1 (отсюда q = 1 — p), а среднее значение альтернативного признака равно
,
средний квадрат отклонений
Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (), на долю единиц, данным свойством не обладающих ().
Максимальное значение средний квадрат отклонения (дисперсия) принимает в случае равенства долей, т.е. когда т.е. . Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Среднее квадратическое отклонение альтернативного признака:
Так, если в изготовленной партии 3% изделий оказались нестандартными, то дисперсия доли нестандартных изделий , а среднее квадратическое отклонение или 17, 1%.
Среднее квадратическое отклонение равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической.
Относительные показатели вариации
Относительные показатели вариации включают:
Коэффициент осцилляции
Относительное линейное отклонение (линейный коэффициент варианции)
Коэффициент вариации (относительное отклонение)
Сравнение вариации нескольких совокупностей по одному и тому же признаку, а тем более по различным признакам с помощью абсолютных показателей не представляется возможным. В этих случаях для сравнительной оценки степени различия строят относительные показатели вариации. Они вычисляются как отношения абсолютных показателей вариации к средней:
Коэффициент осцилляции | |
Относительное линейное отклонение | |
Коэффициент вариации |
Рассчитываются и другие относительные характеристики. Например, для оценки вариации в случае асимметрического распределения вычисляют отношение среднего линейного отклонения к медиан
,
так как благодаря свойству медианы сумма абсолютных отклонений признака от ее величины всегда меньше, чем от любой другой.
В качестве относительной меры рассеивания, оценивающей вариацию центральной части совокупности, вычисляют относительное квартильное отклонение , где — средний квартиль полусуммы разности третьего (или верхнего) квартиля () и первого (или нижнего) квартиля ().
.
На практике чаще всего вычисляют коэффициент вариации. Нижней границей этого показателя является нуль, верхнего предела он не имеет, однако известно, что с увеличением вариации признака увеличивается и его значение. Коэффициент вариации является в известном смысле критерием однородности совокупности (в случае нормального распределения).
Рассчитаем коэффициент вариации на основе среднего квадратического отклонения для следующего примера. Расход сырья на единицу продукции составил (кг): по одной технологии при , а по другой — при. Непосредственное сравнение величины средних квадратических отклонений могло бы привести к неверному представлению о том, что вариация расхода сырья по первой технологии интенсивнее, чем по второй (. Относительная мера вариации (позволяет сделать противоположный вывод
Пример расчета показателей вариации
На этапе отбора кандидатов для участия в осуществлении сложного проекта фирма объявлила конкурс профессионалов. Распределение претендентов по опыту работы показало средующие результаты:
Вычислим средний производственный опыт работы, лет
Рассчитаем дисперсию по продолжительности опыта работы
Такой же результат получается, если использовать для расчета другую формулу расчета дисперсии
Вычислим среднее квадратическое отклонение, лет:
Определим коэффициент вариации, %:
Правило сложения дисперсий
Для оценки влияния факторов, определяющих вариацию, используют прием группировки: совокупность разбивают на группы, выбрав в качестве группировочного признака один из определяющих факторов. Тогда наряду с общей дисперсией, рассчитанной по всей совокупности, вычисляют внутигрупповую дисперсию (или среднюю из групповых) и межгрупповую дисперсию (или дисперсию групповых средних).
Общая дисперсия характеризует вариацию признака во всей совокупности, сложившуюся под влиянием всех факторов и условий.
Межгрупповая дисперсия измеряет систематическую вариацию, обусловленную влиянием фактора, по которому произведена группировка:
— групповые средние,
— численность единиц i-й группы
Внутригрупповая дисперсия оценивает вариацию признака, сложившуюся по влиянием других, неучитываемых в данном исследовании факторов и независящую от фактора группировки. Она определяется как средняя из групповых дисперсий.
— дисперсия i-ой группы.
Все три дисперсии () связаны между собой следующим равенством, которое известно как правило сложения дисперсий:
на этом соотношении строятся показатели, оценивающие влияние признака группировки на образование общей вариации. К ним относятся эмпирический коэффициент детерминации () и эмпирическое корреляционное отношение ()
Эмпирический коэффициент детерминации () характеризует долю межгрупоовой дисперсии в общей дисперсии:
и показывает насколько вариация признака в совокупности обусловлена фактором группировки.
Эмпирическое корреляционное отношение (!!\eta = \sqrt{ \frac{\delta^2}{\sigma^2} }
оценивает тесноту связи между изучаемым и группировочным признаками. Предельными значениями являются нуль и единица. Чем ближе к единице, тем теснее связь.
Пример. Стоимость 1 кв.м общей площади (усл.ед) на рынке жилья по десяти 17-м домам улучшенной планировки составляла:
При этом известно, что первые пять домов были построены вблизи делового центра, а остальные — на значительном расстоянии от него.
Для рассчета общей дисперсии вычислим среднюю стоимость 1 кв.м. общей площади: Общую дисперсию определим по формуле:
.
Вычислим среднюю стоимость 1 кв.м. и дисперсию по этому показателю для каждой группы домов, отличающихся месторасположением относительно центра города:
а) для домов, построенных вблизи центра:
б) для домов, построенных далеко от центра:
Вариация стоимости 1 кв.м. общей площади, вызванная изменением местоположения домов, определяется величиной межгрупповой дисперсии:
Вариация стоимости 1 кв.м. общей площади, обусловленная изменением остальных неучитываемых нами показателей, измеряется величиной внутригрупповой дисперсии
Найденные дисперссии в сумме дают величину общей дисперсии
Эмпирический коэффициент детерминации:
показывает, что дисперсия стоимости 1.кв.м. общей площади на рынке жилья на 81, 8% объясняется различиями в расположении новостроек по отношению к деловому центру и на 18, 2% — другими факторами.
Эмприческое корреляционное отношение свидетельствует о существенном влиянии на стоимость жилья месторасположения домов.
Правило сложения дисперсий для доли признака записывается так:
а три вида дисперсий доли для сгруппированных данных определяется по следующим формулам:
общая дисперсия:
Формулы межгрупповой и внутригрупповой дисперсий:
Характеристики формы распределения
Для получения представления о форме распределения используются показатели среднего уровня (средняя арифметическая, мода, медиана), показатели вариации, ассиметрии и эксцесса.
В симметричных распределениях средняя арифметическая, мода и медиана совпадают (. Если это равенство нарушается — распределение ассиметрично.
Простейшим показателем ассиметрии является разность , которая в случае правосторонней ассиметрии положительна, а при левосторонней — отрицательна.
Ассиметричное распределение
Для сравнения ассиметрии нескольких рядов вычисляется относительный показатель
В качестве обобщающих характеристик вариации используются центральные моменты распределения -го порядка , соответствующие степени, в которую возводятся отклонения отдельных значений признака от средней арифметической:
Для несгруппированных данных:
Для сгруппированных данных:
Момент первого порядка согласно свойству средней арифметической равен нулю .
Момент второго порядка является дисперсией .
Моменты третьего и четвертого порядков используются для построения показателей, оценивающих особенности формы эмпирических распределений.
С помощью момента третьего порядка измеряют степень скошенности или ассиметричности распределения.
— коэффициент ассиметрии
В симметричных распределениях , как все центральные моменты нечетного порядка.Неравенство нулю центрального момента третьего порядка указывает на асимметричность распределения. При этом, если , то асимметрия правосторонняя и относительно максимальной ординаты вытянута правая ветвь; если , то асимметрия левосторонняя (на графике это соответствует вытянутости левой ветви).
Для характеристики островершинности или плосковершинности распределения вычисляют отношение момента четвертого порядка () к среднеквадратическому отклонению в четвертой степени (). Для нормального распределения , поэтому эксцесс находят по формуле:
Для нормального распределения обращается в нуль. Для островершинных распределений , для плосковершинных .
Эксцесс распределения
Кроме показателей, рассмотренных выше, обобщающей характеристикой вариации в однородной совокупности служит определенный порядок в изменении частот распределения в соответствии с изменениями величины изучаемого признака, называемый закономерностью распределения.
Характер (тип) закономерности распределения может быть выявлен путем построения вариационного ряда на основании большого объема наблюдений, а также такого выбора числа групп и величины интегралов, при котором наиболее отчетливо могла бы проявиться закономерность.
Анализ вариационных рядов предполагает выявление характера распределения (как результата действия механизма вариации), установление функции распределения, проверку соответствия эмпирического распределения теоретическому.
Эмпирическое распределение, полученное на основе данных наблюдения, графически изображается эмпирической кривой распределения с помощью полигона.
На практике встречаются различные типы распределений, среди которых можно выделить симметричные и асимметричные, одновершинные и многовершинные.
Установить тип распределения, означает выразить механизм формирования закономерности в аналитической форме. Многим явлениям и их признакам свойственны характерные формы распределения, которые аппроксимируются соответствующими кривыми. При всем многообразии форм распределения наибольшее распространение в качестве теоретических получили нормальное распределение, распределение Пауссона, биноминальное распределение и др.
Особое место в изучении вариации принадлежит нормальному закону, благодаря его математическим свойствам. Для нормального закона выполняется правило трех сигм, по которому вариация индивидуальных значений признака находится в пределах от величины средней. При этом в границах находится около 70% всех единиц, а в пределах — 95%.
Оценка соответствия эмпирического и теоретического распределений производится с помощью критериев согласия, среди которых широко известны критерии Пирсона, Романовского, Ястремского, Колмогорова.
www.yurii.ru
Вариация — это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение и является необходимым звеном в экономическом анализе. Необходимость изучения вариации связана с тем, что средняя, являясь равнодействующей, выполняет свою основную задачу с разной степенью точности: чем меньше различия индивидуальных значений признака, подлежащих осреднению, тем однороднее совокупность, а, следовательно, точнее и надежнее средняя, и наоборот. Следовательно по степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию.
Изменение вариации признака в совокупности осуществляется с помощью абсолютных и относительных показателей.
Абсолютные показатели вариации включают:
размах вариации
среднее линейное отклонение
дисперсию
среднее квадратическое отклонение
Размах вариации (R)
Размах вариации — это разность между максимальным и минимальным значениями признака
Он показывает пределы, в которых изменяется величина признака в изучаемой совокупности.
Пример
Опыт работы у пяти претендентов на предшествующей работе составляет: 2, 3, 4, 7 и 9 лет.
Решение: размах вариации = 9 — 2 = 7 лет.
Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность .
При этом во избежании превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю , либо возводить значения отклонений в квадрат
Среднее линейное и квадратическое отклонение
Среднее линейное отклонение — это средняя арифметическая из абсолютных отклонений отдельных значений признака от средней.
Среднее линейное отклонение простое:
Опыт работы у пяти претендентов на предшествующей работе составляет: 2, 3, 4, 7 и 9 лет.
В нашем примере: лет;
Ответ: 2, 4 года.
Среднее линейное отклонение взвешенное применяется для сгруппированных данных:
Среднее линейное отклонение в силу его условности применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе качества продукции с учетом технологических особенностей производства).
Среднее квадратическое отклонение
Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, которое называют стандартом (или стандартным отклонение). Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической:
Среднее квадратическое отклонение простое:
Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:
Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение: ~ 1, 25.
Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.
Дисперсия
Дисперсия — представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины.
Дисперсия простая:
В нашем примере:
Дисперсия взвешенная:
Более удобно вычислять дисперсию по формуле:
которая получается из основной путем несложных преобразований. В этом случае средний квадрат отклонений равен средней из квадратов значений признака минус квадрат средней.
Для несгрупиированных данных:
Для сгруппированных данных:
Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие — нулем (0). Долю единиц, обладающих изучаемым признаком, обозначают буквой , а долю единиц, не обладающих этим признаком — через . Учитывая, что p + q = 1 (отсюда q = 1 — p), а среднее значение альтернативного признака равно
,
средний квадрат отклонений
Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (), на долю единиц, данным свойством не обладающих ().
Максимальное значение средний квадрат отклонения (дисперсия) принимает в случае равенства долей, т.е. когда т.е. . Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Среднее квадратическое отклонение альтернативного признака:
Так, если в изготовленной партии 3% изделий оказались нестандартными, то дисперсия доли нестандартных изделий , а среднее квадратическое отклонение или 17, 1%.
Среднее квадратическое отклонение равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической.
Относительные показатели вариации
Относительные показатели вариации включают:
Коэффициент осцилляции
Относительное линейное отклонение (линейный коэффициент варианции)
Коэффициент вариации (относительное отклонение)
Сравнение вариации нескольких совокупностей по одному и тому же признаку, а тем более по различным признакам с помощью абсолютных показателей не представляется возможным. В этих случаях для сравнительной оценки степени различия строят относительные показатели вариации. Они вычисляются как отношения абсолютных показателей вариации к средней:
Коэффициент осцилляции | |
Относительное линейное отклонение | |
Коэффициент вариации |
Рассчитываются и другие относительные характеристики. Например, для оценки вариации в случае асимметрического распределения вычисляют отношение среднего линейного отклонения к медиан
,
так как благодаря свойству медианы сумма абсолютных отклонений признака от ее величины всегда меньше, чем от любой другой.
В качестве относительной меры рассеивания, оценивающей вариацию центральной части совокупности, вычисляют относительное квартильное отклонение , где — средний квартиль полусуммы разности третьего (или верхнего) квартиля () и первого (или нижнего) квартиля ().
.
На практике чаще всего вычисляют коэффициент вариации. Нижней границей этого показателя является нуль, верхнего предела он не имеет, однако известно, что с увеличением вариации признака увеличивается и его значение. Коэффициент вариации является в известном смысле критерием однородности совокупности (в случае нормального распределения).
Рассчитаем коэффициент вариации на основе среднего квадратического отклонения для следующего примера. Расход сырья на единицу продукции составил (кг): по одной технологии при , а по другой — при. Непосредственное сравнение величины средних квадратических отклонений могло бы привести к неверному представлению о том, что вариация расхода сырья по первой технологии интенсивнее, чем по второй (. Относительная мера вариации (позволяет сделать противоположный вывод
Пример расчета показателей вариации
На этапе отбора кандидатов для участия в осуществлении сложного проекта фирма объявлила конкурс профессионалов. Распределение претендентов по опыту работы показало средующие результаты:
Вычислим средний производственный опыт работы, лет
Рассчитаем дисперсию по продолжительности опыта работы
Такой же результат получается, если использовать для расчета другую формулу расчета дисперсии
Вычислим среднее квадратическое отклонение, лет:
Определим коэффициент вариации, %:
Правило сложения дисперсий
Для оценки влияния факторов, определяющих вариацию, используют прием группировки: совокупность разбивают на группы, выбрав в качестве группировочного признака один из определяющих факторов. Тогда наряду с общей дисперсией, рассчитанной по всей совокупности, вычисляют внутигрупповую дисперсию (или среднюю из групповых) и межгрупповую дисперсию (или дисперсию групповых средних).
Общая дисперсия характеризует вариацию признака во всей совокупности, сложившуюся под влиянием всех факторов и условий.
Межгрупповая дисперсия измеряет систематическую вариацию, обусловленную влиянием фактора, по которому произведена группировка:
— групповые средние,
— численность единиц i-й группы
Внутригрупповая дисперсия оценивает вариацию признака, сложившуюся по влиянием других, неучитываемых в данном исследовании факторов и независящую от фактора группировки. Она определяется как средняя из групповых дисперсий.
— дисперсия i-ой группы.
Все три дисперсии () связаны между собой следующим равенством, которое известно как правило сложения дисперсий:
на этом соотношении строятся показатели, оценивающие влияние признака группировки на образование общей вариации. К ним относятся эмпирический коэффициент детерминации () и эмпирическое корреляционное отношение ()
Эмпирический коэффициент детерминации () характеризует долю межгрупоовой дисперсии в общей дисперсии:
и показывает насколько вариация признака в совокупности обусловлена фактором группировки.
Эмпирическое корреляционное отношение (!!\eta = \sqrt{ \frac{\delta^2}{\sigma^2} }
оценивает тесноту связи между изучаемым и группировочным признаками. Предельными значениями являются нуль и единица. Чем ближе к единице, тем теснее связь.
Пример. Стоимость 1 кв.м общей площади (усл.ед) на рынке жилья по десяти 17-м домам улучшенной планировки составляла:
При этом известно, что первые пять домов были построены вблизи делового центра, а остальные — на значительном расстоянии от него.
Для рассчета общей дисперсии вычислим среднюю стоимость 1 кв.м. общей площади: Общую дисперсию определим по формуле:
.
Вычислим среднюю стоимость 1 кв.м. и дисперсию по этому показателю для каждой группы домов, отличающихся месторасположением относительно центра города:
а) для домов, построенных вблизи центра:
б) для домов, построенных далеко от центра:
Вариация стоимости 1 кв.м. общей площади, вызванная изменением местоположения домов, определяется величиной межгрупповой дисперсии:
Вариация стоимости 1 кв.м. общей площади, обусловленная изменением остальных неучитываемых нами показателей, измеряется величиной внутригрупповой дисперсии
Найденные дисперссии в сумме дают величину общей дисперсии
Эмпирический коэффициент детерминации:
показывает, что дисперсия стоимости 1.кв.м. общей площади на рынке жилья на 81, 8% объясняется различиями в расположении новостроек по отношению к деловому центру и на 18, 2% — другими факторами.
Эмприческое корреляционное отношение свидетельствует о существенном влиянии на стоимость жилья месторасположения домов.
Правило сложения дисперсий для доли признака записывается так:
а три вида дисперсий доли для сгруппированных данных определяется по следующим формулам:
общая дисперсия:
Формулы межгрупповой и внутригрупповой дисперсий:
Характеристики формы распределения
Для получения представления о форме распределения используются показатели среднего уровня (средняя арифметическая, мода, медиана), показатели вариации, ассиметрии и эксцесса.
В симметричных распределениях средняя арифметическая, мода и медиана совпадают (. Если это равенство нарушается — распределение ассиметрично.
Простейшим показателем ассиметрии является разность , которая в случае правосторонней ассиметрии положительна, а при левосторонней — отрицательна.
Ассиметричное распределение
Для сравнения ассиметрии нескольких рядов вычисляется относительный показатель
В качестве обобщающих характеристик вариации используются центральные моменты распределения -го порядка , соответствующие степени, в которую возводятся отклонения отдельных значений признака от средней арифметической:
Для несгруппированных данных:
Для сгруппированных данных:
Момент первого порядка согласно свойству средней арифметической равен нулю .
Момент второго порядка является дисперсией .
Моменты третьего и четвертого порядков используются для построения показателей, оценивающих особенности формы эмпирических распределений.
С помощью момента третьего порядка измеряют степень скошенности или ассиметричности распределения.
— коэффициент ассиметрии
В симметричных распределениях , как все центральные моменты нечетного порядка.Неравенство нулю центрального момента третьего порядка указывает на асимметричность распределения. При этом, если , то асимметрия правосторонняя и относительно максимальной ординаты вытянута правая ветвь; если , то асимметрия левосторонняя (на графике это соответствует вытянутости левой ветви).
Для характеристики островершинности или плосковершинности распределения вычисляют отношение момента четвертого порядка () к среднеквадратическому отклонению в четвертой степени (). Для нормального распределения , поэтому эксцесс находят по формуле:
Для нормального распределения обращается в нуль. Для островершинных распределений , для плосковершинных .
Эксцесс распределения
Кроме показателей, рассмотренных выше, обобщающей характеристикой вариации в однородной совокупности служит определенный порядок в изменении частот распределения в соответствии с изменениями величины изучаемого признака, называемый закономерностью распределения.
Характер (тип) закономерности распределения может быть выявлен путем построения вариационного ряда на основании большого объема наблюдений, а также такого выбора числа групп и величины интегралов, при котором наиболее отчетливо могла бы проявиться закономерность.
Анализ вариационных рядов предполагает выявление характера распределения (как результата действия механизма вариации), установление функции распределения, проверку соответствия эмпирического распределения теоретическому.
Эмпирическое распределение, полученное на основе данных наблюдения, графически изображается эмпирической кривой распределения с помощью полигона.
На практике встречаются различные типы распределений, среди которых можно выделить симметричные и асимметричные, одновершинные и многовершинные.
Установить тип распределения, означает выразить механизм формирования закономерности в аналитической форме. Многим явлениям и их признакам свойственны характерные формы распределения, которые аппроксимируются соответствующими кривыми. При всем многообразии форм распределения наибольшее распространение в качестве теоретических получили нормальное распределение, распределение Пауссона, биноминальное распределение и др.
Особое место в изучении вариации принадлежит нормальному закону, благодаря его математическим свойствам. Для нормального закона выполняется правило трех сигм, по которому вариация индивидуальных значений признака находится в пределах от величины средней. При этом в границах находится около 70% всех единиц, а в пределах — 95%.
Оценка соответствия эмпирического и теоретического распределений производится с помощью критериев согласия, среди которых широко известны критерии Пирсона, Романовского, Ястремского, Колмогорова.
www.ronl.ru
При[xiv] статистическом исследовании признаков различных статистических совокупностей большой интерес представляет изучение вариации признака отдельных статистических единиц совокупности, а также характера распределения единиц по данному признаку. Вариация — это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение. По степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию. Показатели вариации используются для характеристики и упорядочения статистических совокупностей.
Результаты сводки и группировки материалов статистического наблюдения, оформленные в виде статистических рядов распределения, … представляют собой упорядоченное распределение единиц изучаемой совокупности на группы по группировочному (варьирующему) признаку. Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по профессии, по полу, по цвету и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным (распределение по росту, весу, по размеру заработной платы и т.д.). Построить вариационный ряд — значит упорядочить количественное распределение единиц совокупности по значениям признака, подсчитать число единиц совокупности с этими значениями (частоту), результаты оформить в таблицу.
Вместо частоты варианта возможно применение ее отношения к общему объему наблюдений, которое называется частостью (относительной частотой).
Выделяют два вида вариационного ряда: дискретный и интервальный ряд. Дискретный ряд — это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести число работников на предприятии, тарифный разряд, количество детей в семье и т.д. Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй — число единиц совокупности с определенным значением признака. Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака возможно построение интервального вариационного ряда. Таблица при построении интервального вариационного ряда также имеет две графы. В первой указывается значение признака в интервале «от — до» (варианты), во второй — число единиц, входящих в интервал (частота). Частота (частота повторения) — число повторений отдельного варианта значений признака. Интервалы могут быть закрытые и открытые. Закрытые интервалы ограничены с обеих сторон, т.е. имеют границу как нижнюю («от»), так и верхнюю («до»). Открытые интервалы имеют какую-либо одну границу: либо верхнюю, либо нижнюю. Если варианты расположены по возрастанию или убыванию, то ряды называются ранжированными.
Для вариационных рядов существует два типа вариантов частотных характеристик: накопленная частота и накопленная частость. Накопленная частота показывает, в скольких наблюдениях величина признака приняла значения меньше заданного. Накопленная частота определяется путем суммирования значений частоты признака по данной группе со всеми частотами предшествующих групп. Накопленная частость характеризует удельный вес единиц наблюдения, у которых значения признака не превосходят верхнюю границу данной группы. Таким образом, накопленная частость показывает удельный вес вариант в совокупности, имеющих значение не больше данного. Частота, частость, абсолютная и относительная плотности, накопленные частота и частость являются характеристиками величины варианта.
Вариации признака статистических единиц совокупности, а также характер распределения изучаются с помощью показателей и характеристик вариационного ряда, к числу которых относятся средний уровень ряда, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия, коэффициенты осцилляции, вариации, асимметрии, эксцесса и др.
Для характеристики центра распределения применяются средние величины. Средняя представляет собой обобщающую статистическую характеристику, в которой получает количественное выражение типичный уровень признака, которым обладают члены изучаемой совокупности. Однако возможны случаи совпадения средних арифметических при разном характере распределения, поэтому в качестве статистических характеристик вариационных рядов рассчитываются так называемые структурные средние — мода, медиана, а также квантили, которые делят ряд распределения на равные части (квартили, децили, перцентили и т.д.).
Мода[xv] — это значение признака, которое встречается в ряду распределения чаще, чем другие его значения. Для дискретных рядов — это варианта, имеющая наибольшую частоту. В интервальных вариационных рядах с целью определения моды необходимо определить прежде всего интервал, в котором она находится, так называемый модальный интервал. В вариационном ряду с равными интервалами модальный интервал определяется по наибольшей частоте, в рядах с неравными интервалами — по наибольшей плотности распределения. Затем для определения моды в рядах с равными интервалами применяют формулу
(5.1)
где Mo — значение моды; — нижняя граница модального интервала; h — ширина модального интервала; — частота модального интервала; — частота домодального интервала; — частота послемодального интервала, а для ряда с неравными интервалами в данной формуле расчета вместо частот , , следует использовать плотности распределения , , .
Встречаются ряды, которые имеют две моды (бимодальный ряд) или несколько мод (полимодальный).
В интервальном вариационном ряду моду можно определить графически с помощью гистограммы. Для этого из верхних точек самого высокого столбца гистограммы до верхних точек двух смежных столбцов проводят две пересекающиеся линии. Затем из точки их пересечения опускают перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее перпендикуляру, является модой. Во многих случаях при характеристике совокупности в качестве обобщенного показателя отдается предпочтение моде, а не средней арифметической.
Медиана — это центральное значение признака, им обладает центральный член ранжированного ряда распределения. В дискретных рядах, чтобы найти медиану, сначала определяется ее порядковый номер. Для этого при нечетном числе единиц к сумме всех частот прибавляется единица, число делится на два. При четном числе единиц в ряду будет две средние единицы, поэтому в этом случае медиана определяется как средняя из значений двух средних единиц. Таким образом, медианой в дискретном вариационном ряду является значение, которое делит ряд на две части, содержащие одинаковое число вариантов.
В интервальных рядах после определения порядкового номера медианы отыскивается медиальный интервал по накопленным частотам (частостям), а затем при помощи формулы расчета медианы определяется значение самой медианы:
, (5.2)
где Me — значение медианы; — нижняя граница медианного интервала; h — ширина медианного интервала; — сумма частот ряда распределения; — накопленная частота домедианного интервала; — частота медианного интервала.
Медиану можно отыскать графически с помощью кумуляты. Для этого на шкале накопленных частот (частостей) кумуляты из точки, соответствующей порядковому номеру медианы, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Далее из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее проведенной ординате (перпендикуляру), является медианой.
Медиана характеризуется следующими свойствами.
1. Она не зависит от тех значений признака, которые расположены по обе стороны от нее.
2. Она имеет свойство минимальности, которое заключается в том, что сумма абсолютных отклонений значений признака от медианы представляет собой минимальную величину по сравнению с отклонением значений признака от любой другой величины.
3. При объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.
Эти свойства медианы широко используется при проектировании расположения пунктов массового обслуживания — школ, поликлиник, автозаправочных станций, водозаборных колонок и т.д. Например, если в определенном квартале города предполагается построить поликлинику, то расположить ее целесообразнее в такой точке квартала, которая делит пополам не длину квартала, а число жителей.
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить симметричность распределения. Если < Ме < Мо, то имеет место левосторонняя асимметрия ряда. Если Мо < Ме < , то имеет место правосторонняя асимметрия ряда. При нормальном распределении = Ме = Мо.
К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:
(5.3)
(5.4)
где Me — значение медианы; Mo — значение моды; — значение средней арифметической.
Если возникает необходимость изучить структуру вариационного ряда более подробно, то вычисляют значения признака, аналогичные медиане. Такие значения признака делят все единицы распределения на равные численности, их называют квантилями или градиентами. Квантили подразделяются на квартили, децили перцентили и т.п.
Квартили делят совокупность на четыре равные части. Первую квартиль вычисляют аналогично медиане по формуле расчета первой квартили, предварительно определив первый квартильный интервал:
, (5.5)
где — значение первой квартили; — нижняя граница первого квартильного интервала; h — ширина первого квартильного интервала; fi — частоты интервального ряда; — накопленная частота в интервале, предшествующему первому квартильному интервалу; — частота первого квартильного интервала.
Первая квартиль показывает, что 25% единиц совокупности меньше ее значения, а 75% — больше. Вторая квартиль равна медиане.
По аналогии рассчитывают третью квартиль, предварительно отыскав третий квартильный интервал.
, (5.6)
где — значение третьей квартили; — нижняя граница третьего квартильного интервала; h — ширина третьего квартильного интервала; fi — частоты интервального ряда; — накопленная частота в интервале, предшествующему третьему квартильному интервалу; — частота третьего квартильного интервала.
Третья квартиль показывает, что 75% единиц совокупности меньше ее значения, а 25% — больше.
Разность между третьей и первой квартилями представляет собой межквартильный интервал:
, (5.7)
где — значение межквартильного интервала; — значение третьей квартили; — значение первой квартили.
Децили делят совокупность на 10 равных частей. Дециль — это такое значение признака в ряду распределения, которому соответствуют десятые доли численности совокупности. По аналогии с квартилями первый дециль показывает, что 10% единиц совокупности меньше его значения, а 90% — больше, а девятый дециль выявляет, что 90% единиц совокупности меньше его значения, а 10% — больше. Соотношение девятого и первого децилей, т.е. децильный коэффициент, широко применяется при изучении дифференциации доходов для измерения соотношения уровней доходов 10% наиболее обеспеченного и 10% наименее обеспеченного населения. Перцентили делят ранжированную совокупность на 100 равных частей. Расчет, значение и применение перцентилей аналогичны децилям.
Квартили, децили и другие структурные характеристики можно определить графически по аналогии с медианой с помощью кумуляты.
Для измерения размера вариации используются следующие показатели: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Величина размаха вариации целиком зависит от случайности распределения крайних членов ряда. Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака:
, (5.8)
где — значение размаха вариации; — максимальное значение признака; — минимальное значение признака.
При расчете размаха вариации значение подавляющего большинства членов ряда не учитывается, в то время как вариация связана с каждым значением члена ряда. Этого недостатка лишены показатели, представляющие собой средние, полученные из отклонений индивидуальных значений признака от их средней величины: среднее линейное отклонение и среднее квадратическое отклонение. Между индивидуальными отклонениями от средней и колеблемостью конкретного признака существует прямая зависимость. Чем сильнее колеблемость, тем больше абсолютные размеры отклонений от средней.
Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных величин отклонений отдельных вариантов от их средней величины.
Среднее линейное отклонение для несгрупированных данных
, (5.9)
где — значение среднего линейного отклонения; — значение признака; — среднее значение признака для изучаемой совокупности; n — число единиц совокупности.
Среднее линейное отклонение сгруппированного ряда[xvi]
, (5.10)
где — значение среднего линейного отклонения; — значение признака; — среднее значение признака для изучаемой совокупности; — число единиц совокупности в отдельной группе.
Знаки отклонений в данном случае игнорируются, в противном случае сумма всех отклонений будет равна нулю. Среднее линейное отклонение в зависимости от группировки анализируемых данных рассчитывается по различным формулам: для сгруппированных и несгруппированных данных. Среднее линейное отклонение в силу его условности отдельно от других показателей вариации применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе оборота внешней торговли, состава работающих, ритмичности производства, качества продукции с учетом технологических особенностей производства и т.п.).
Среднее квадратическое отклонение характеризует, на сколько в среднем отклоняются индивидуальные значения изучаемого признака от среднего значения по совокупности, и выражается в единицах измерения изучаемого признака. Среднее квадратическое отклонение, являясь одной из основных мер вариации, широко используется при оценке границ вариации признака в однородной совокупности, при определении значений ординат кривой нормального распределения, а также в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик. Среднее квадратическое отклонение по несгруппированным данным исчисляется по следующему алгоритму — каждое отклонение от средней возводится в квадрат, все квадраты суммируются, после чего сумма квадратов делится на число членов ряда и из частного извлекается квадратный корень:
, (5.11)
где s — значение среднего квадратического отклонения; — значение признака; — среднее значение признака для изучаемой совокупности; n — число единиц совокупности.
Для сгруппированных анализируемых данных среднее квадратическое отклонение данных рассчитывается по взвешенной формуле
, (5.12)
где s — значение среднего квадратического отклонения; xi — значение признака; — среднее значение признака для изучаемой совокупности; — число единиц совокупности в отдельной группе.
Выражение под корнем в обоих случаях носит название дисперсии. Таким образом, дисперсия вычисляется как средний квадрат отклонений значений признака от их средней величины. Для невзвешенных (простых) значений признака дисперсия определяется следующим образом:
, (5.13)
Для взвешенных значений признака
. (5.14)
Существует также специальный упрощенный способ расчета дисперсии:
в общем виде
, (5.15)
для невзвешенных (простых) значений признака
, (5.16)
для взвешенных значений признака[xvii]
, (5.17)
(5.18)
где s2 — значение дисперсии; xi — значение признака; — среднее значение признака, h — величина группового интервала, mi — веса (h = åmi).
Дисперсия имеет самостоятельное выражение в статистике и относится к числу важнейших показателей вариации. Она измеряется в единицах, соответствующих квадрату единиц измерения изучаемого признака.
Дисперсия имеет следующие свойства.
1. Дисперсия постоянной величины равна нулю.
2. Уменьшение всех значений признака на одну и ту же величину А не меняет величины дисперсии. Это означает, что средний квадрат отклонений можно вычислить не по заданным значениям признака, а по отклонениям их от какого-то постоянного числа.
3. Уменьшение всех значений признака в k раз уменьшает дисперсию в k2 раз, а среднее квадратическое отклонение — в k раз, т.е. все значения признака можно разделить на какое-то постоянное число (скажем, на величину интервала ряда), исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число.
4. Если исчислить средний квадрат отклонений от любой величины А, в той или иной степени отличающейся от средней арифметической, то он всегда будет больше среднего квадрата отклонений, исчисленного от средней арифметической. Средний квадрат отклонений при этом будет больше на вполне определенную величину — на квадрат разности средней и этой условно взятой величины.
Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие — нулем (0). Долю единиц, обладающих изучаемым свойством, обозначают через P, а долю единиц, не обладающих этим свойством, — через G. Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (P), на долю единиц, данным свойством не обладающих (G). Наибольшая вариация совокупности достигается в случаях, когда часть совокупности, составляющая 50% от всего объема совокупности, обладает признаком, а другая часть совокупности, также равная 50%, не обладает данным признаком, при этом дисперсия достигает максимального значения, равного 0,25, т.е. P = 0,5, G = 1 – P = 1 – 0,5 = 0,5 и σ2 = 0,5×0,5 = 0,25.Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Практическое применение дисперсии альтернативного признака состоит в построении доверительных интервалов при проведении выборочного наблюдения.
Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность и тем более типичной будет средняя величина. В практике статистики часто возникает необходимость сравнения вариаций различных признаков. Например, интересным является сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. Для таких сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией заработной платы, выраженной в рублях. Для осуществления таких сравнений, а также сравнений колеблемости одного и того же признака в нескольких совокупностях с разными средними арифметическими используются показатели вариации — коэффициент осцилляции, линейный коэффициент вариации и коэффициент вариации, которые показывают, на сколько колеблются крайние значения вокруг средней.
Коэффициент осцилляции:
, (5.19)
где — значение коэффициента осцилляции; — значение размаха вариации; — среднее значение признака для изучаемой совокупности.
Линейный коэффициент вариации:
, (5.20)
где — значение линейного коэффициента вариации; — значение среднего линейного отклонения; — среднее значение признака для изучаемой совокупности.
Коэффициент вариации:
, (5.21)
где — значение коэффициента вариации; s — значение среднего квадратического отклонения; — среднее значение признака для изучаемой совокупности.
Коэффициент осцилляции — это процентное отношение размаха вариации к среднему значению изучаемого признака, а линейный коэффициент вариации — это отношение среднего линейного отклонения к среднему значению изучаемого признака, выраженное в процентах. Коэффициент вариации представляет собой процентное отношение среднего квадратического отклонения к среднему значению изучаемого признака. Как величина относительная, выраженная в процентах, коэффициент вариации применяется для сравнения степени вариации различных признаков. С помощью коэффициента вариации оценивается однородность статистической совокупности. Если коэффициент вариации меньше 33%, то исследуемая совокупность является однородной, а вариация слабой. Если коэффициент вариации больше 33%, то исследуемая совокупность является неоднородной, вариация сильной, а средняя величина — нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности. Кроме того, коэффициенты вариации используются для сравнения колеблемости одного признака в различных совокупностях. Например, для оценки вариации стажа работы работников на двух предприятиях. Чем больше значение коэффициента, тем вариация признака существеннее.
На основе рассчитанных квартилей имеется возможность рассчитать также относительный показатель квартильной вариации по формуле
, (5.22)
где Q1, Q2 и Q3 — соответственно первая, вторая и третья квартили распределения.
Межквартильный размах определяется по формуле
. (5.23)
Квартильное отклонение применяется вместо размаха вариации, чтобы избежать недостатков, связанных с использованием крайних значений:
. (5.24)
Для неравноинтервальных вариационных рядов рассчитывается также плотность распределения. Она определяется как частное от деления соответствующей частоты или частости на величину интервала. В неравноинтервальных рядах используются абсолютная и относительная плотности распределения. Абсолютная плотность распределения — это частота, приходящаяся на единицу длины интервала. Относительная плотность распределения — частость, приходящаяся на единицу длины интервала.
refac.ru