Смекни!
smekni.com

Математическая статистика (стр. 6 из 14)

Выше говорилось о том, что если для двух случайных величин X и Y имеет место равенство P(X ÇY) = P(X)·P(Y), то эти величины считаются независимыми. Ну, а если это не так!?

Ведь всегда важно знать: насколько зависит одна СВ от другой? Дело не только в присущем людям стремлении анализировать что-либо обязательно в числовом измерении. Уже понятно, что прикладная статистика требует непрерывных вычислений, что использование компьютера вынуждает нас работать с числами, а не с понятиями.

Для числовой оценки взаимосвязи между двумя СВ: Y – с известными M(Y) и sy

и X – с M(X) и sx принято использовать так называемый коэффициент корреляции

. {3–1}

Обратим внимание на способ вычисления коэффициента корреляции. В числителе находится математическое ожидание произведения отклонений величин X и Y от собственных математических ожиданий.

Этот коэффициент может принимать значения от –1 до +1 — в зависимости от тесноты и характера связи между данными СВ.

Если коэффициент корреляции равен нулю, то X и Y называют некоррелированными. Считать их независимыми обычно нет оснований — оказывается, что существуют такие, как правило — нелинейные связи величин, при которых коэффициент корреляции равен нулю, хотя величины зависят друг от друга.

Обратное всегда верно — если величины независимы, то R(XY) = 0. Но, если модуль R(XY) равен 1, то есть все основания предполагать наличие линейной связи между Y и X. Именно поэтому часто говорят о линейной корреляции при использовании такого способа оценки связи между СВ.

Если у нас имеется ряд наблюдений за двумя случайными величинами, то можно оценить выборочное значение коэффициента корреляции –

{3–2}

Оценку корреляционной связи двух СВ можно производить и без учета их дисперсий.

Числитель коэффициента корреляции

. {3–3}

называют ковариацией случайных величин, которая также служит мерой связи, но без непосредственного учета дисперсий.

Различие между такими двумя показателями парной связи СВ достаточно существенное.

· Коэффициент корреляции определяет степень, тесноту линейной связи между величинами и является безразмерной величиной.

· Ковариация двух СВ определяет эту связь безотносительно к ее виду и является величиной размерной.

3.2Множественная корреляция

В ряде случаев статистического анализа приходится решать вопрос о связях нескольких (более 2) СВ или вопрос о множественной корреляции.

Пусть X, Y и Z – случайные величины, имеющие математические ожидания M(X), M(Y), M(Z) и среднеквадратичные отклонения sx ,sy, sz соответственно. Тогда можно найти парные коэффициенты корреляции Rxy, Rxz, Ryz по приведенной выше формуле.

Но этого явно недостаточно – ведь мы на каждом из трех этапов попросту забывали о наличии третьей СВ! Поэтому в случаях множественного корреляционного анализа иногда требуется отыскивать т. н. частные коэффициенты корреляции — например, оценка виляния Z на связь между X и Y производится с помощью коэффициента

И, наконец, можно поставить вопрос — а какова связь между данной СВ и совокупностью остальных? Ответ на такие вопросы дают коэффициенты множественной корреляции RX.YZ, RY.XZ, RZ.XY, формулы для вычисления которых построены по тем же принципам — учету связи одной из величин со всеми остальными в совокупности.

4.Проверка статистических гипотез

4.1Понятие статистической гипотезы

Как уже отмечалось, основным занятием статистика–прикладника является чаще всего решение вопроса о том, что и как можно извлечь из наблюдений над случайной величиной (выборочных её значений) для последующего использования в практике.

Скажем, для некоторой экономической задачи требуется знание длины очереди автомашин, ожидающих технического обслуживания, а эта величина хоть и выражается целым числом, но является случайной.

Очень редко задачи такого рода имеют “теоретическую платформу” – хотя бы в части закона распределения СВ, не говоря уже о внутренних параметрах этого распределения или его моментах. Чаще всего в нашем распоряжении нет практически ничего, кроме некоторого количества наблюдений за значениями СВ и … необходимости решать задачу.

Выражаясь чисто научным языком, современный подход к статистическим задачам в последние два десятилетия заключается в использовании непараметрической статистики, а не традиционных, классических методов, которые применимы только при заранее известных законах распределений.

Но и в первом, и во втором случаях одной из важнейших задач профессионального статистика является проверка выдвинутых им же предположений или гипотез.

Чем же отличаются статистические гипотезы от обычных, житейских предположений? Прежде всего, тем, что статистических гипотез всегда две и они взаимоисключающие. Одна из них (обычно та, которую предполагают отклонить) носит название нулевой гипотезы Њ0, вторая – альтернативная гипотеза Њ1 всегда отрицает нулевую, противостоит ей.

Вся “хитрость” заключается именно в нулевой гипотезе – её надо построить, сформулировать так, чтобы иметь возможность найти интересующие нас вероятности в условиях истинности этой гипотезы.

Пусть мы исследуем игральную кость ­– “проверяем” ее симметричность. Ясно, что в качестве нулевой гипотезой надо считать предположение о полной симметрии кости.

Ведь если Њ0 верна, то вероятности выпадения всех шести цифр на гранях будут одинаковы – по 1/6 . А вот выдвижение в качестве нулевой гипотезы предположения об асимметрии кости ничего бы не дало – в этом случае мы ничего не можем сказать о значениях вероятностях выпадения цифр.

С процедурами проверки статистических гипотез неразрывно связано еще одно, непривычное для обычных расчетных работ, понятие уровня значимости результатов наблюдений.

В самом начале курса уже упоминался метод выделения редких событий ­– вероятность которых не превышает 5 %. Конечно, это значение является чисто условным – в некоторых случаях редкими считают события с вероятностью не более 1 %.

Теория вероятностей позволяет обосновать деление случайных событий на три класса ­– обычные, редкие и исключительные. При этом наблюдение события исключительного дает основания считать, что причины его наступления являются уже неслучайными – имеет место влияние некоторого фактора.

Будем далее использовать 5 % уровень значимости, как это принято почти во всех прикладных направлениях статистики, в том числе и в экономике.

Итак, если наблюдения относятся к событиям редким (с вероятностью до 5 %), то такие наблюдения и результаты их обработки будем называть статистически значимыми. Как же так, спросите вы, ­– вероятность мала, а предлагается считаться с ней. Все очень просто ­– если мы вычислили вероятность некоторого результата наблюдения в условиях основной гипотезы и она (априорная вероятность) оказалась очень малой, то чем она меньше, тем больше у нас оснований отвергнуть Њ0. С другой стороны, если мы увидели очень редкое событие – выпадение 10 гербов при 15 подбрасываниях монетки, то значимость такого наблюдения чрезвычайно высока – гипотезу о симметрии вполне можно отбросить.

4.2Критерии статистических гипотез

Если мы пытаемся решить некоторую статистическую задачу, то в большинстве случаев нам придется заниматься не столько математическими выкладками и числовыми расчетами, сколько принимать решение – какую из выдвинутых нами же статистических гипотез принять (или – какую из них отвергнуть).