Смекни!
smekni.com

Лекции по статистике (стр. 4 из 5)

пример.

Прибыль компаний: Ме=500 +500*(50-44)/(76-44)=593.75 млн. Это означает, что 50% компаний имеет прибыль меньше 593.75 млн.

Оценки студентов: Ме=4

Квартили.

Квартили - порядковые характеристики, отделяющие четверти ранжированных совокупностей.

1 квартиль или нижний отделяет четверть ранжированной совокупности снизу и вычисляется по формуле:

(для интервального)

Медиану можно рассматривать как второй квартиль.

Верхний квартиль

Мода.

Мода - наиболее часто встречающееся в совокупности значение признака. Для дискретного вариационного ряда мода определяется по частотам вариант и соответствует варианте с максимальной частотой. При определении моды обычно применяют следующие соглашения:

1. если все значения вариационного ряда имеют одинаковую частоту, то говорят, что этот вариационный ряд не имеет моды.

2. если две соседних варианты имеют одинаковую доминирующую частоту, что мода вычисляется как среднее арифметическое этих вариант.

3. если две не соседних варианты имеют одинаковую доминирующую частоту, то такой вариационный ряд называется бимодальным.

4. если таких вариант более двух, то ряд - полимодальный.

В случае интервального вариационного ряда с равными интервалами модальный интервал определяется по наибольшей частоте, а при неравных интервалах - по наибольшей плотности.

При равных интервалах мода внутри модального интервала может определяться по следующей формуле:

Данная формула получена исходя из допущения, что в модальном и двух соседних интервалах кривая распределения представляет собой параболу второго порядка. Тогда мода находится как вершина параболы. Для графического определения моды используют 3 соседних столбца гистограммы (самый высокий и 2 прилегающих к нему).

При вычислении моды в формуле можно использовать не только относительные, но и другие частоты.


пример.

Прибыль 100 компаний - Мо=0+500*(41-1)/(41-1+41-32)=408.16 млн.

Оказывается, по расположению средней арифметической, моды и медианы можно судить о форме распределения. Если оно симметричное, то все три величины равны.

В практике мода и медиана иногда используются вместо средней арифметической или вместе с ней. Фиксируя средние цены товаров или продуктов на рынке записывают наиболее часто встречающуюся цену на рынке (моду цены).

Робастные характеристики для оценки среднего арифметического.

В ряде случаев в изучаемой совокупности имеется небольшое число элементов с чрезвычайно большим или чрезмерно малым значением исследуемого признака.

В этих случаях в дополнение к среднему арифметическому целесообразно вычислить моду и медиану, которые в отличие от среднего не зависят от крайних, не характерных для совокупности значений признака. Мода и медиана относятся к классу так называемых “робастных характеристик”, т.е. не чувствительных к аномальным значениям признака. Рассмотрим робастные характеристики, применяемые для оценки среднего арифметического:

1. усеченное среднееарифметическое порядка

Пусть имеем ряд значений признака, упорядоченный в возрастающем порядке

, упорядоченный в возрастающем порядке. Пусть первые x(1),...,x(m) - аномально маленькие, x(n-m+1),...,x(n) - аномально большие.

- указывает долю отбрасываемых значений признака.

2. среднее по Виндору

Отличается от усеченного тем, что аномальные значения признака не отбрасываются, а полагаются крайним значениям, принимаемым на обработку.

x(1)=x(2)...=x(m)=x(m+1)

x(n)=x(n-1)=...=x(n-m+1)=x(n-m)

примеры.

8.Характеристики рассеяния.

Средняя величина признака, а также его мода и медиана в двух совокупностях могут быть одинаковыми. но в одном случае значения признака могут мало отличаться от среднего, а в другом эти значения могут быть велики.

пример.

Пусть имеются данные о стаже работы в 2 бригадах.

стаж 1 2 3 4 5 6 7 8 9 10 средн.
1 бр. 1 2 3 3 4 9 10 12 13 15 7.2
2 бр. 6 6 7 7 7 7 8 8 18 8 7.2

Простейшим из показателей является вариационный размах R=Xmax-Xmin. Размах выборки дает лишь самое общее представление о размерах вариации, так как показывает насколько отчаются друг от друга крайние значения, но не указывают насколько велики отклонения вариант друг от друга внутри этого промежутка. Более точным будет такой показатель, который учитывает отклонение каждой из вариант от средней величины.

Выделяют среднее линейное отклонение

, либо среднеквадратичное отклонение
.

Если объем выборки невелик, то в качестве оценки дисперсии рассматривают

.

пример.

Для вычисления дисперсии можно использовать формулу

.

Основные свойства дисперсии:

1.

2.

3.

4.

, то есть дисперсия принимает минимальное значение среди всевозможных взвешенных квадратов отклонений значений признака от любой другой меры положения а.

5. правило сложения дисперсий

Пусть ряд значений признака состоит из j однородных групп: x(1),...,X(n1),...X(n1+n2),...X(n),n=n1+n2+...+nj. Обозначим дисперсии групп D1,...Dj/

Надо найти общую дисперсию.

, т.е. общая дисперсия равна сумме внутригрупповой и внешне групповой дисперсий.

Таким образом общая дисперсия равна взвешенной сумме групповых дисперсий и взвешенной сумме квадратов отклонений групповых средних от общей средней. Первое слагаемое выражает величину дисперсии внутри частей совокупности, а второе- различие между этими частями.

пример.

Каждая из перечисленных дисперсий имеет вполне определенный смысл: общая дисперсия показывает величину вариации зарплаты, которая вызвана всеми факторами, влияющими на размер зарплаты. (число обслуживаемых станков, различия в опыте и т.д.) Групповые дисперсии показывают величину вариации, которая вызвана многими причинами кроме различий в числе обсуживаемых станков, так как внутри группы все рабочие обслуживают одинаковое количество станков. Средняя из групповых вариаций вызвана не различиями в числе обслуживаемых станков по всему числу рабочих, различия по числу станков.

Чем больше межгрупповая дисперсия

по сравнению
, тем больше влияние группировочного признака на величину исследуемого признака.

Если группировать рабочих внутри каждой группы по другому признаку, оказывающему влияние на заработок, например по уровню квалификации, то можно из внутригрупповых дисперсий выделить дисперсию, показывающую величину вариации, вызванной вторым группировочным признаком и дисперсию остаточную, характеризующую вариацию за счет всех причин, кроме 2 группировочных признаков. Теоретически такую комбинационную группировку можно продолжать до тех пор, пока не будут исчерпаны все причины, воздействующие на исследуемый признак. Общая дисперсия в этот случае будет представлена как сумма дисперсий, характеризующих вариацию, вызванную каждой из причин.

Кроме абсолютных для характеристики совокупности значений признаков применяются относительные показатели.

Коэффициент вариации

.

Используется для сравнения размеров вариации в вариационных рядах с различными средними, а также для сравнения вариаций разных показателей в оной и той же совокупности. Он отражает состояние между вариацией выборки и ее центром.

1.

<=30% - выборка имеем довольно большую степень концентрации относительного среднего.

2. 30%<=

<=100% - степень концентрации допустимая.

3.

>=100% - делается вывод о неоднородности выборки.

пример.

Реже используются следующие коэффициенты:

1. Коэффициент вариации по размаху