Макияж. Уход за волосами. Уход за кожей

Макияж. Уход за волосами. Уход за кожей

» » Нулевое значение дисперсии означает. Абсолютные показатели вариации

Нулевое значение дисперсии означает. Абсолютные показатели вариации

Виды дисперсий:

Общая дисперсия характеризует вариацию признака всей совокупности под влиянием всех тех факторов, которые обусловили данную вариацию. Эта величина определяется по формуле

где - общая средняя арифметическая всей исследуемой совокупности.

Средняя внутригрупповая дисперсия свидетельствует о случайной вариации, которая может возникнуть под влиянием каких-либо неучтенных факторов и которая не зависит от признака-фактора, положенного в основу группировки. Данная дисперсия рассчитывается следующим образом: сначала рассчитываются дисперсии по отдельным группам (), затем рассчитывается средняя внутригрупповая дисперсия:

где n i - число единиц в группе

Межгрупповая дисперсия (дисперсия групповых средних) характеризует систематическую вариацию, т.е. различия в величине исследуемого признака, возникающие под влиянием признака-фактора, который положен в основу группировки.

где - средняя величина по отдельной группе.

Все три вида дисперсии связаны между собой: общая дисперсия равна сумме средней внутригрупповой дисперсии и межгрупповой дисперсии:

Свойства:

25 Относительные показатели вариации

Коэффициент осцилляции

Относительное линейное отклонение

Коэффициент вариации

Коэф. Осц. о тражает относительную колеблемость крайних значений признака вокруг средней. Отн. лин. откл . характеризует долю усредненного значения признака абсолютных отклонений от средней величины. Коэф. Вариации является наиболее распространенным показателем колеблемости, используемым для оценки типичности средних величин.

В статистике совокупности, имеющие коэффициент вариации больше 30–35 %, принято считать неоднородными.

    Закономерность рядов распределения. Моменты распределения. Показатели формы распределения

В вариационных рядах существует связь между частотами и значениями варьирующего признака: с увеличением признака величина частоты сначала возрастает до определённой границы, а потом уменьшается. Такие изменения называются закономерностями распределения.

Форму распределения изучают с помощью показателей асимметрии и эксцесса. При исчислении указанных показателей используют моменты распределения.

Моментом k-го порядка называют среднюю из k-х степеней отклонений вариантов значений признака от некоторой постоянной величины. Порядок момента определяется величиной k. При анализе вариационных рядов ограничиваются расчетом моментов первых четырех порядков. При исчислении моментов в качестве весов могут быть использованы частоты или частости. В зависимости от выбора постоянной величины различают начальные, условные и центральные моменты.

Показатели формы распределения:

Асимметрия (As) показатель характеризующий степень асимметричности распределения.

Следовательно, при (левосторонней) отрицательной асимметрии . При (правосторонней) положительной асимметрии.

Для расчета асимметрии можно использовать центральные моменты. Тогда:

,

где μ 3 – центральный момент третьего порядка.

- эксцесс (Е к ) характеризует крутизну графика функции в сравнении с с нормальным распределением при той же силе вариации:

,

где μ 4 – центральный момент 4-ого порядка.

    Закон нормального распределения

Для нормального распределения (распределения Гаусса) функция распределения имеет следующий вид:

Матожидание- стандартное отклонение

Нормальное распределение симметрично и для него характерно следующее соотношение: Хср=Ме=Мо

Эксцесс нормального распределения равен 3, а коэффициент асимметрии 0.

Кривая нормального распределения представляет собой полигон(симметричная колокобразная прямая)

    Виды дисперсий. Правило сложения дисперсий. Сущность эмпирического коэффициента детерминации.

Если исходная совокупность разделена на группы по какому-то существенному признаку, то вычисляют следующие виды дисперсий:

    Общая дисперсия исходной совокупности:

где - общая средняя величина исходной совокупности;f– частоты исходной совокупности. Общая дисперсия характеризует отклонение индивидуальных значений признака от общей средней величины исходной совокупности.

    Внутригрупповые дисперсии:

где j- номер группы;- средняя величина в каждойj-ой группе;- частотыj-ой группы. Внутригрупповые дисперсии характеризуют отклонение индивидуального значения признака в каждой группе от групповой средней величины. Из всех внутригрупповых дисперсий вычисляют среднюю по формуле:, где- численность единиц в каждойj-ой группе.

    Межгрупповая дисперсия:

Межгрупповая дисперсия характеризует отклонение групповых средних величин от общей средней величины исходной совокупности.

Правило сложения дисперсий заключается в том, что общая дисперсия исходной совокупности должна быть равна сумме межгрупповой и средней из внутригрупповых дисперсий:

Эмпирический коэффициент детерминации показывает долю вариации изучаемого признака, обусловленную вариацией группировочного признака, и рассчитывается по формуле:

    Способ отсчета от условного нуля (способ моментов) для расчета средней величины и дисперсии

Расчет дисперсии способом моментов основан на использовании формулы и 3 и 4 свойств дисперсии.

(3.Если все значения признака (варианты) увеличить (уменьшить) на какое-то постоянное число А, то дисперсия новой совокупности не изменится.

4.Если все значения признака (варианты) увеличить (умножить) в К раз, где К – постоянное число, то дисперсия новой совокупности увеличится (уменьшится) в К 2 раз.)

Получим формулу вычисления дисперсии в вариационных рядах с равными интервалами способом моментов:

А- условный ноль, равный варианте с максимальной частотой (середина интервала с максимальной частотой)

Расчет средней величины способом моментов также основан на использовании свойств средней.

    Понятие о выборочном наблюдении. Этапы исследования экономических явлений выборочным методом

Выборочным называют наблюдение, при котором обследованию и изучению подвергаются не все единицы исходной совокупности, а только часть единиц, при этом результат обследования части совокупности распространяется на всю исходную совокупность. Совокупность, из которой производится отбор единиц для дальнейшего обследования и изучения называется генеральной и все показатели, характеризующие эту совокупность, называютсягенеральными .

Возможные пределы отклонений выборочной средней величины от генеральной средней величины называют ошибкой выборки .

Совокупность отобранных единиц называется выборочной и все показатели, характеризующие эту совокупность, называютсявыборочными .

Выборочное исследование включает следующие этапы:

Характеристика объекта исследования (массовые экономические явления). Если генеральная совокупность небольшая, то выборку проводить не рекомендуется, необходимо сплошное исследование;

Расчет объема выборки. Важно определить оптимальный объем, который позволит при наименьших затратах получить ошибку выборки в пределах допустимой;

Проведение отбора единиц наблюдения с учетом требований случайности, пропорциональности.

Доказательство репрезентативности, основанное на оценке ошибки выборки. Для случайной выборки ошибка рассчитывается с использованием формул. Для целевой выборки репрезентативность оценивается с помощью качественных методов (сравнения, эксперимента);

Анализ выборочной совокупности. Если сформированная выборка отвечает требованиям репрезентативности, то проводится ее анализ с использованием аналитических показателей (средних, относительных и проч.)

Решение.

В качестве меры рассеивания значений случайной величины используется дисперсия

Дисперсия (слово дисперсия означает "рассеяние") есть мера рассеивания значений случайной величины относительно ее математического ожидания. Дисперсией называется математическое ожидание квадрата отклонения случайной величины от ее математического ожидания

Если случайная величина - дискретная с бесконечным, но счетным множеством значений, то

если ряд в правой части равенства сходится.

Свойства дисперсии.

  • 1. Дисперсия постоянной величины равна нулю
  • 2. Дисперсия суммы случайных величин равна сумме дисперсий
  • 3. Постоянный множитель можно выносить за знак дисперсии в квадрате

Дисперсия разности случайных величин равна сумме дисперсий

Это свойство является следствием второго и третьего свойств. Дисперсии могут только складываться.

Дисперсию удобно вычислять по формуле, которую легко получить, используя свойства дисперсии

Дисперсия всегда величина положительная .

Дисперсия имеет размерность квадрата размерности самой случайной величины, что не всегда удобно. Поэтому в качестве показателя рассеяния используют также величину

Средним квадратическим отклонением (стандартным отклонением или стандартом) случайной величиныназывается арифметическое значение корня квадратного из её дисперсии

Бросают две монеты достоинством 2 и 5 рублей. Если монета выпадает гербом, то начисляют ноль очков, а если цифрой, то число очков, равное достоинству монеты. Найти математическое ожидание и дисперсию числа очков.

Решение. Найдем вначале распределение случайной величины Х - числа очков. Все комбинации - (2;5),(2;0),(0;5),(0;0) - равновероятны и закон распределения:

Математическое ожидание:

Дисперсию найдем по формуле

для чего вычислим

Пример 2.

Найти неизвестную вероятность р , математическое ожидание и дисперсию дискретной случайной величины, заданной таблицей распределения вероятностей

Находим математическое ожидание и дисперсию:

M (X ) = 00,0081 + 10,0756 + 20,2646 + 3 0,4116 + +40,2401=2,8

Для вычисления дисперсии воспользуемся формулой (19.4)

D (X ) = 020 ,0081 + 120,0756 + 220,2646 + 320,4116 + 420,2401 - 2,82 = 8,68 -

Пример 3. Два равносильных спортсмена проводят турнир, который длится или до первой победы одного из них, или до тех пор, пока не будет сыграно пять партий. Вероятность победы в одной партии для каждого из спортсменов равна 0,3, а вероятность ничейного исхода партии 0,4. Найти закон распределения, математическое ожидание и дисперсию числа сыгранных партий.

Решение. Случайная величина Х - количество сыгранных партий, принимает значения от 1 до 5, т. е.

Определим вероятности окончания матча. Матч закончится на первой партии, если кто-то их спортсменов выиграл. Вероятность выигрыша равна

Р (1) = 0,3+0,3 =0,6.

Если же была ничья (вероятность ничьей равна 1 - 0,6 = 0,4), то матч продолжается. Матч закончится на второй партии, если в первой была ничья, а во второй кто-то выиграл. Вероятность

Р (2) = 0,4 0,6=0,24.

Аналогично, матч закончится на третьей партии, если было подряд две ничьи и опять кто-то выиграл

Р (3) = 0,4 0,4 0,6 = 0,096. Р (4)= 0,4 0,4 0,4 0,6=0,0384.

Пятая партия в любом варианте последняя.

Р (5)= 1 - (Р (1)+Р (2)+Р (3)+Р (4)) = 0,0256.

Сведем все в таблицу. Закон распределения случайной величины "число выигранных партий" имеет вид

Математическое ожидание

Дисперсию вычисляем по формуле (19.4)

Стандартные дискретные распределения.

Биномиальное распределение. Пусть реализуется схема опытов Бернулли: проводится n одинаковых независимых опытов, в каждом из которых событие A может появиться с постоянной вероятностью p и не появится с вероятностью

(см. лекцию 18).

Число появлений события A в этих n опытах есть дискретная случайная величина X , возможные значения которой:

0; 1; 2; ... ; m ; ... ; n.

Вероятность появления m событий A в конкретной серии из n опытов с и закон распределения такой случайной величины задается формулой Бернулли (см. лекцию 18)

Числовые характеристики случайной величины X распределенной по биномиальному закону:

Если n велико (), то, при, формула (19.6) переходит в формулу

а табулированная функция Гаусса (таблица значений функции Гаусса приведена в конце 18 лекции).

На практике часто важна не сама вероятность появления m событий A в конкретной серии из n опытов, а вероятность того, что событие А появится не менее

раз и не более раз, т. е. вероятность того, что Х принимает значения

Для этого надо просуммировать вероятности

Если n велико (), то, при, формула (19.9) переходит в приближенную формулу

табулированная функция. Таблицы приведены в конце лекции 18.

При использовании таблиц надо учесть, что

Пример 1 . Автомобиль, подъезжая к перекрестку, может продолжить движение по любой из трех дорог: A, B или C с одинаковой вероятностью. К перекрестку подъезжают пять автомобилей. Найти среднее число автомашин, которое поедет по дороге A и вероятность того, что по дороге B поедет три автомобиля.

Решение. Число автомашин проезжающих по каждой из дорог является случайной величиной. Если предположить, что все подъезжающие к перекрестку автомобили совершают поездку независимо друг от друга, то эта случайная величина распределена по биномиальному закону с

n = 5 и p = .

Следовательно, среднее число автомашин, которое проследует по дороге A, есть по формуле (19.7)

а искомая вероятность при

Пример 2. Вероятность отказа прибора при каждом испытании 0,1. Производится 60 испытаний прибора. Какова вероятность того, что отказ прибора произойдёт: а) 15 раз; б) не более 15 раз?

а. Так как число испытаний 60, то используем формулу (19.8)

По таблице 1 приложения к лекции 18 находим

б . Используем формулу (19.10).

По таблице 2 приложения к лекции 18

  • - 0,495
  • 0,49995

Распределение Пуассона) закон редких явлений). Если n велико, а р мало (), при этом произведение пр сохраняет постоянное значение, которое обозначим л,

то формула (19.6) переходит в формулу Пуассона

Закон распределения Пуассона имеет вид:

Очевидно, что определение закона Пуассона корректно, т.к. основное свойство ряда распределения

выполнено, т.к. сумма ряда

В скобках записано разложение в ряд функции при

Теорема. Математическое ожидание и дисперсия случайной величины, распределенной по закону Пуассона, совпадают и равны параметру этого закона, т.е.

Доказательство.

Пример. Для продвижения своей продукции на рынок фирма раскладывает по почтовым ящикам рекламные листки. Прежний опыт работы показывает, что примерно в одном случае из 2 000 следует заказ. Найти вероятность того, что при размещении 10 000 рекламных листков поступит хотя бы один заказ, среднее число поступивших заказов и дисперсию числа поступивших заказов.

Решение . Здесь

Вероятность того, что поступит хотя бы один заказ, найдем через вероятность противоположного события, т.е.

Случайный поток событий. Потоком событий называется последовательность событий, происходящие в случайные моменты времени. Типичными примерами потоков являются сбои в компьютерных сетях, вызовы на телефонных станциях, поток заявок на ремонт оборудования и т. д.

Поток событий называется стационарным , если вероятность попадания того или иного числа событий на временной интервал длины зависит только от длины интервала и не зависит не зависит от расположения временного интервала на оси времени.

Условию стационарности удовлетворяет поток заявок, вероятностные характеристики которого не зависят от времени. В частности, для стационарного потока характерна постоянная плотность (среднее число заявок в единицу времени). На практике часто встречаются потоки заявок, которые (по крайней мере, на ограниченном отрезке времени) могут рассматриваться как стационарные. Например, поток вызовов на городской телефонной станции на участке времени от 12 до 13 часов может считаться стационарным. Тот же поток в течение целых суток уже не может считаться стационарным (ночью плотность вызовов значительно меньше, чем днем).

Поток событий называется потоком с отсутствием последействия , если для любых неперекрывающихся участков времени число событий, попадающих на один из них, не зависит от числа событий, попадающих на другие.

Условие отсутствия последействия - наиболее существенное для простейшего потока - означает, что заявки поступают в систему независимо друг от друга. Например, поток пассажиров, входящие на станцию метро, можно считать потоком без последействия потому, что причины, обусловившие приход отдельного пассажира именно в тот, а не другой момент, как правило, не связаны с аналогичными причинами для других пассажиров. Однако условие отсутствия последействия может быть легко нарушено за счет появления такой зависимости. Например, поток пассажиров, покидающих станцию метро, уже не может считаться потоком без последействия, так как моменты выхода пассажиров, прибывших одним и тем же поездом, зависимы между собой.

Поток событий называется ординарным , если вероятность попадания на малый интервал времени t двух или более событий пренебрежимо мала по сравнению с вероятностью попадания одного события (в этой связи закон Пуассона называют законом редких событий).

Условие ординарности означает, что заявки приходят поодиночке, а не парами, тройками и т. д. дисперсия отклонение распределение бернулли

Например, поток клиентов, входящих в парикмахерскую, может считаться практически ординарным. Если в неординарном потоке заявки поступают только парами, только тройками и т. д., то неординарный поток легко свести к ординарному; для этого достаточно вместо потока отдельных заявок рассмотреть поток пар, троек и т. д. Сложнее будет, если каждая заявка случайным образом может оказаться двойной, тройной и т. д. Тогда уже приходится иметь дело с потоком не однородных, а разнородных событий.

Если поток событий обладает всеми тремя свойствами (т. е. стационарен, ординарен и не имеет последействия), то он называется простейшим (или стационарным пуассоновским) потоком. Название "пуассоновский" связано с тем, что при соблюдении перечисленных условий число событий, попадающих на любой фиксированный интервал времени, будет распределено по закону Пуассона

Здесь - среднее число событий A , появляющихся за единицу времени.

Этот закон однопараметрический, т.е. для его задания требуется знать только один параметр. Можно показать, что математическое ожидание и дисперсия в законе Пуассона численно равны:

Пример . Пусть в середине рабочего дня среднее число запросов равняется 2 в секунду. Какова вероятность того, что 1) за секунду не поступит ни одной заявки, 2) за две секунды поступит 10 заявок?

Решение. Поскольку правомерность применения закона Пуассона не вызывает сомнения и его параметр задан (= 2), то решение задачи сводится к применении формулы Пуассона (19.11)

1) t = 1, m = 0:

2) t = 2, m = 10:

Закон больших чисел. Математическим основанием того факта, что значения случайной величины группируются около некоторых постоянных величин, является закон больших чисел.

Исторически первой формулировкой закона больших чисел стала теорема Бернулли:

"При неограниченном увеличении числа одинаковых и независимых опытов n частота появления события A сходится по вероятности к его вероятности", т.е.

где частота появления события A в n опытах,

Содержательно выражение (19.10) означает, что при большом числе опытов частота появления события A может заменять неизвестную вероятность этого события и чем больше число проведенных опытов, тем ближе р* к р. Интересен исторический факт. К. Пирсон бросал монету 12000 раз и герб у него выпал 6019 раз (частота 0.5016). При бросании этой же монеты 24000 раз он получил 12012 выпадений герба, т.е. частоту 0.5005.

Наиболее важной формой закона больших чисел является теорема Чебышева: при неограниченном возрастании числа независимых, имеющих конечную дисперсию и проводимых в одинаковых условиях опытов среднее арифметическое наблюденных значений случайной величины сходится по вероятности к ее математическому ожиданию . В аналитической форме эта теорема может быть записана так:

Теорема Чебышева кроме фундаментального теоретического значения имеет и важное практическое применение, например, в теории измерений. Проведя n измерений некоторой величины х , получают различные несовпадающие значения х 1, х 2, ..., хn . За приближенное значение измеряемой величины х принимают среднее арифметическое наблюденных значений

При этом, чем больше будет проведено опытов, тем точнее будет полученный результат. Дело в том, что дисперсия величины убывает с возрастанием числа проведенных опытов, т.к.

D (x 1) = D (x 2)=…= D (xn ) D (x ) , то

Соотношение (19.13) показывает, что и при высокой неточности приборов измерения (большая величина) за счет увеличения количества измерений можно получать результат со сколь угодно высокой точностью.

Используя формулу (19.10) можно найти вероятность того, что статистическая частота отклоняется от вероятности не более, чем на

Пример. Вероятность события в каждом испытании равна 0,4. Сколько нужно провести испытаний, чтобы с вероятностью, не меньшей, чем 0,8 ожидать, что относительная частота события будет отклоняться от вероятности по модулю менее, чем на 0,01?

Решение. По формуле (19.14)

следовательно, по таблице два приложения

следовательно, n 3932.

Дисперсия в статистике определяется как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. Распространенный способ расчета квадратов отклонений вариантов от средней с их последующим усреднением.

В экономически-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения, оно представляет собой корень квадратный из дисперсии.

(3)

Характеризует абсолютную колеблемость значений варьирующего признака выражается в тех же единицах измерения, что и варианты. В статистике часто возникает необходимость сравнения вариации различных признаков. Для таких сравнений используется относительный показатель вариации, коэффициент вариации.

Свойства дисперсии:

1)если из всех вариант вычесть какое-либо число, то дисперсия от этого не изменится;

2) если все значения вариант разделить на какое-либо число b, то дисперсия уменьшится в b^2 раз, т.е.

3) если исчислить средний квадрат отклонений от какого-либо числа с неравного средней арифметической, то он будет больше дисперсии . При этом на вполне определенную величину на квадрат разности между средней величиной поc.

Дисперсию можно определить как разницу между средним квадратом и средней в квадрате.

17. Групповая и межгрупповая вариации. Правило сложения дисперсии

Если статистическая совокупность разбита на группы или части по изучаемому признаку, то для такой совокупности могут быть исчислены следующие виды дисперсии: групповые (частные), средне групповые (частных), и межгрупповая.

Общая дисперсия – отражает вариацию признака за счет всех условий и причин, действующих в данной статистической совокупности.

Групповая дисперсия - равна среднему квадрату отклонений отдельных значений признака внутри группы от средней арифметической этой группы, называемой групповой средней. При этом групповая средняя не совпадает с общей средней для всей совокупности.

Групповая дисперсия отражает вариацию признака только за счет условий и причин, действующих внутри группы.

Средняя групповых дисперсий - определяется как среднее взвешенное арифметическое из дисперсий групповых, причем весами являются объемы групп.

Межгрупповая дисперсия - равна среднему квадрату отклонений групповых средних от общей средней.

Межгрупповая дисперсия характеризует вариацию результативного признака за счет группировочного признака.

Между рассмотренными видами дисперсий существует определенное соотношение: общая дисперсия равна сумме средней групповой и межгрупповой дисперсии.

Это соотношение называется правилом сложения дисперсии.

18. Динамический ряд и его составные элементы. Виды динамических рядов.

Ряд в статистике - это цифровые данные, показывающие, изменение явления во времени или в пространстве и дающие возможность производить статистическое сравнение явлений как в процессе их развития во времени, так и по различным формам и видам процессов. Благодаря этому можно обнаружить взаимную зависимость явлений.

Процесс развития движения социальных явлений во времени в статистике принято называть динамикой. Для отображения динамики строят ряды динамики (хронологические, временные), которые представляют собой ряды изменяющихся во времени значений статистического показателя (например, число осуждённых за 10 лет), расположенных в хронологическом порядке. Их составными элементами являются цифровые значения данного показателя и периоды или моменты времени, к которым они относятся.

Важнейшая характеристика рядов динамики - их размер (объём, величина) того или иного явления, достигнутых в определённых период или к определённому моменту. Соответственно, величина членов ряда динамики - его уровень. Различают начальный, средний и конечный уровни динамического ряда. Начальный уровень показывает величину первого, конечный - величину последнего члена ряда. Средний уровень представляет собой среднюю хронологическую вариационного рада и исчисляется в зависимости от того, является ли динамический ряд интервальным или моментным.

Ещё одна важная характеристика динамического ряда - время, прошедшее от начального до конечного наблюдения, или число таких наблюдений.

Существуют различные виды рядов динамики, их можно классифицировать по следующим признакам.

1) В зависимости от способа выражения уровней ряды динамики подразделяются на ряды абсолютных и производных показателей (относительных и средних величин).

2) В зависимости от того, как выражают уровни ряда состояние явления на определённые моменты времени (на начало месяца, квартала, года и т.п.) или его величину за определённые интервалы времени (например, за сутки, месяц, год и т.п.), различают соответственно моментные и интервальные ряды динамики. Моментные ряды в аналитической работе правоохранительных органов используются сравнительно редко.

В теории статистики выделяют рады динамики и по ряду других классификационных признаков: в зависимости от расстояния между уровнями - с равностоящими уровнями и неравностоящими уровнями во времени; в зависимости от наличия основной тенденции изучаемого процесса - стационарные и не стационарные. При анализе динамических рядов исходят из следующего уровни ряда представляют в виде составляющих:

Y t = TP + Е (t)

где ТР – детерминированная составляющая определяющая общую тенденцию изменения во времени или тренд.

Е (t) – случайная компонента, вызывающая колеблимость уровней.

Дисперсия случайной величины - мера разброса данной случайной величины , то есть её отклонения от математического ожидания. В статистике для обозначения дисперсии часто употребляется обозначение (сигма в квадрате). Квадратный корень из дисперсии , равный , называется стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

Хотя для оценки всей выборки очень удобно использовать лишь одно значение (такое как среднее значение или моду и медиану), этот подход легко может привести к неправильным выводам. Причина такого положения лежит не в самой величине, а в том, что одна величина никак не отражает разброс значений данных.

Например, в выборке:

среднее значение равно 5.

Однако, в самой выборке нет ни одного элемента со значением 5. Возможно, Вам потребуется знать степень близости каждого элемента выборки к ее среднему значению. Или, другими словами, вам потребуется знать дисперсию значений. Зная степень изменения данных, Вы можете лучше интерпретировать среднее значение , медиану и моду . Степень изменения значений выборки определяется путем вычисления их дисперсии и стандартного отклонения.



Дисперсия и квадратный корень из дисперсии, называемый стандартным отклонением, характеризуют среднее отклонение от среднего значения выборки. Среди этих двух величин наибольшее значение имеет стандартное отклонение . Это значение можно представить как среднее расстояние, на котором находятся элементы от среднего элемента выборки.

Дисперсию трудно интерпретировать содержательно. Однако, квадратный корень из этого значения является стандартным отклонением и хорошо поддается интерпретации.

Стандартное отклонение вычисляется путем определения сначала дисперсии и затем вычисления квадратного корня из дисперсии.

Например, для массива данных, приведенных на рисунке, будут получены следующие значения:

Рисунок 1

Здесь среднее значение квадратов разностей равно 717,43. Для получения стандартного отклонения осталось лишь взять квадратный корень из этого числа.

Результат составит приблизительно 26,78.

Следует помнить, что стандартное отклонение интерпретируется как среднее расстояние, на котором находятся элементы от среднего значения выборки.

Стандартное отклонение показывает, насколько хорошо среднее значение описывает всю выборку.

Допустим, Вы являетесь руководителем производственного отдела по сборке ПК. В квартальном отчете говорится, что выпуск за последний квартал составил 2500 ПК. Плохо это или хорошо? Вы попросили (или уже в отчете есть эта графа) в отчете отобразить стандартное отклонение по этим данным. Цифра стандартного отклонения, например, равна 2000. Становится понятным для Вас, как руководителя отдела, что производственная линия требует лучшего управления (слишком большие отклонения по количеству собираемых ПК).

Вспомним: при большой величине стандартного отклонения данные широко разбросаны относительно среднего значения, а при маленькой – они группируются близко к среднему значению.

Четыре статистические функции ДИСП(), ДИСПР(), СТАНДОТКЛОН() и СТАНДОТКЛОНП() – предназначены для вычисления дисперсии и стандартного отклонения чисел в интервале ячеек. Перед тем как вычислять дисперсию и стандартное отклонение набора данных, нужно определить, представляют ли эти данные генеральную совокупность или выборку из генеральной совокупности. В случае выборки из генеральной совокупности следует использовать функции ДИСП() и СТАНДОТКЛОН(), а в случае генеральной совокупности – функции ДИСПР() и СТАНДОТЛОНП():

Генеральная совокупность Функция

ДИСПР()

СТАНДОТЛОНП()
Выборка

ДИСП()

СТАНДОТКЛОН()

Дисперсия (а так же стандартное отклонение), как мы отмечали, свидетельствуют о том, в какой степени входящие в набор данных величины разбросаны вокруг среднего арифметического.

Малое значение дисперсии или стандартного отклонения говорит о том, что все данные сосредоточены вокруг среднего арифметического, а большое значение этих величин – о том, что данные разбросаны в широком диапазоне значений.

Дисперсию достаточно трудно интерпретировать содержательно (что значит малое значение, большое значение?). Выполнение Задания 3 позволит визуально, на графике, показать смысл дисперсии для набора данных.

Задания

· Задание 1.

· 2.1. Дать понятия: дисперсия и стандартное отклонение; их символьное обозначение при статистической обработке данных.

· 2.2. Оформить рабочий лист в соответствии с рисунком 1 и произвести необходимые расчеты.

· 2.3. Привести основные формулы, используемые при расчетах

· 2.4. Пояснить все обозначения ( , , )

· 2.5. Пояснить практическое значение понятия дисперсия и стандартное отклонение.

Задание 2.

1.1. Дать понятия: генеральная совокупность и выборка; математическое ожидание и среднее арифметическое их символьное обозначение при статистической обработке данных.

1.2. В соответствии с рисунком 2 оформить рабочий лист и произвести расчеты.

1.3. Привести основные формулы, используемые при расчетах (для генеральной совокупности и выборке).

Рисунок 2

1.4. Объяснить, почему возможны получения таких значений средних арифметических в выборках как 46,43 и 48,78 (см. файл Приложение). Сделать выводы.

Задание 3.

Имеется две выборки с различным набором данных, но среднее для них будет одинаковым:

Рисунок 3

3.1. Оформить рабочий лист в соответствии с рисунком 3 и произвести необходимые расчеты.

3.2. Приведите основные формулы расчета.

3.3. Постройте графики в соответствии с рисунками 4, 5.

3.4. Поясните полученные зависимости.

3.5. Аналогичные вычисления проведите для данных двух выборок.

Исходная выборка 11119999

Значения второй выборки подбираете так, что бы среднее арифметическое для второй выборки было таким же, например,:

Подберите значения для второй выборки самостоятельно. Оформите вычисления и построения графиков подобно рисункам 3, 4, 5. Покажите основные формулы, которые использовали при вычислениях.

Сделайте соответствующие выводы.

Все задания оформить в виде отчета со всеми необходимыми рисунками, графиками, формулами и краткими пояснениями.

Примечание: построение графиков обязательно пояснить с рисунками и краткими пояснениями.

Дисперсия — это мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Формула для вычисления дисперсии представлена ниже:

s 2 – дисперсия выборки;

x ср — среднее значение выборки;

n размер выборки (количество значений данных),

(x i – x ср) — отклонение от средней величины для каждого значения набора данных.

Для лучшего понимания формулы, разберем пример. Я не очень люблю готовку, поэтому занятием этим занимаюсь крайне редко. Тем не менее, чтобы не умереть с голоду, время от времени мне приходится подходить к плите для реализации замысла по насыщению моего организма белками, жирами и углеводами. Набор данных, редставленный ниже, показывает, сколько раз Ренат готовит пищу каждый месяц:

Первым шагом при вычислении дисперсии является определение среднего значения выборки, которое в нашем примере равняется 7,8 раза в месяц. Остальные вычисления можно облегчить с помощью следующей таблицы.

Финальная фаза вычисления дисперсии выглядит так:

Для тех, кто любит производить все вычисления за один раз, уравнение будет выглядеть следующим образом:

Использование метода «сырого счета» (пример с готовкой)

Существует более эффективный способ вычисления дисперсии, известный как метод «сырого счета». Хотя с первого взгляда уравнение может показаться весьма громоздким, на самом деле оно не такое уж страшное. Можете в этом удостовериться, а потом и решите, какой метод вам больше нравится.

— сумма каждого значения данных после возведения в квадрат,

— квадрат суммы всех значений данных.

Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыдущем примере.

Как видите, результат получился тот же, что и при использовании предыдущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (n).

Расчет дисперсии в Excel

Как вы уже, наверное, догадались, в Excel присутствует формула, позволяющая рассчитать дисперсию. Причем, начиная с Excel 2010 можно найти 4 разновидности формулы дисперсии:

1) ДИСП.В – Возвращает дисперсию по выборке. Логические значения и текст игнорируются.

2) ДИСП.Г — Возвращает дисперсию по генеральной совокупности. Логические значения и текст игнорируются.

3) ДИСПА — Возвращает дисперсию по выборке с учетом логических и текстовых значений.

4) ДИСПРА — Возвращает дисперсию по генеральной совокупности с учетом логических и текстовых значений.

Для начала разберемся в разнице между выборкой и генеральной совокупностью. Назначение описательной статистики состоит в том, чтобы суммировать или отображать данные так, чтобы оперативно получать общую картину, так сказать, обзор. Статистический вывод позволяет делать умозаключения о какой-либо совокупности на основе выборки данных из этой совокупности. Совокупность представляет собой все возможные исходы или измерения, представляющие для нас интерес. Выборка — это подмножество совокупности.

Например, нас интересует совокупность группы студентов одного из Российских ВУЗов и нам необходимо определить средний бал группы. Мы можем посчитать среднюю успеваемость студентов, и тогда полученная цифра будет параметром, поскольку в наших расчетах будет задействована целая совокупность. Однако, если мы хотим рассчитать средний бал всех студентов нашей страны, тогда эта группа будет нашей выборкой.

Разница в формуле расчета дисперсии между выборкой и совокупностью заключается в знаменателе. Где для выборки он будет равняться (n-1), а для генеральной совокупности только n.

Теперь разберемся с функциями расчета дисперсии с окончаниями А, в описании которых сказано, что при расчете учитываются текстовые и логические значения. В данном случае при расчете дисперсии определенного массива данных, где встречаются не числовые значения, Excel будет интерпретировать текстовые и ложные логические значения как равными 0, а истинные логические значения как равными 1.

Итак, если у вас есть массив данных, рассчитать его дисперсию ни составит никакого труда, воспользовавшись одной из перечисленных выше функций Excel.