Смекни!
smekni.com

Регрессионный анализ. Парная регрессия (стр. 2 из 2)

Формулируется гипотеза Н0: предположим, что yi¹a + bxi + ei

Обратить внимание: выписаны не а, а a, т. е., не оценки коэффициентов регрессии, а их истинные значения.

Альтернатива – гипотеза Н1: yi = a + bxi + ei

Мы не можем однозначно подтвердить или опровергнуть гипотезу Н0, мы можем лишь принять или отвергнуть ее с определенной вероятностью.

Выберем некоторый уровень значимости g, такой что 0 £g£ 1 – вероятность того, что мы сделаем неправильный вывод, приняв или отклонив гипотезу Н0.

Соответственно, величина Р = 1 - g - доверительная вероятность – вероятность того, что мы в итоге сделаем правильный вывод.

Для проверки истинности гипотезы Н0, с заданным уровнем значимости g, рассчитывается F-статистика:

Значение F-статистики в случае парной регресии подчиняется т. н.

F-распределению Фишера с 1 степенью свободы числителя и (n - 2) степенями свободы знаменателя.

Для проверки Н0 величина F-статистики сравнивается с табличным значением Fg(1, n-2).

Если F > Fg(1, n-2) – гипотеза Н0 отвергается, т. е. мы считаем, что с вероятностью 1-g можно утверждать, что регрессия имеет место и:

yi = a + bxi + ei

В противном случае гипотеза Н0 не отвергается, принимаем:

yi¹a + bxi + ei

Вопрос: почему бы нам не взять g поменьше? Чем меньше g, тем больше соответствующее табличное значение F-статистики, т. е., тем меньше шансов, что появятся основания отвергнуть гипотезу Н0.

Ошибки первого и второго рода

Ошибка первого рода: отвергается Н0, которая на самом деле верна.

Ошибка второго рода: принимается H0, которая на самом деле не верна.

Очевидно, чем меньше g, тем меньше наши шансы отвергнуть гипотезу Н0, т. е., совершить ошибку первого рода. Соответственно, шансы совершить ошибку второго рода увеличиваются.

4. Характеристика оценок коэффициентов уравнения регрессии

1) математическое ожидание

Теорема: М(а) = a, M(b) = b - несмещенность оценок

Это означает, что при увеличении количества наблюдений значения МНК-оценок a и b будут приближаться к истинным значениям a и b;

2) дисперсия

Теорема:

;

Благодаря этой теореме, мы можем получить представление о том, как далеко, в среднем, наши оценки a и b находятся от истинных значений a и b.

Необходимо иметь в виду, что дисперсии характеризуют не отклонения, а «отклонения в квадрате». Чтобы перейти к сопоставимым значениям, рассчитаем стандартные отклонения a и b:

;

Будем называть эти величины стандартными ошибками a и b соответственно.

5. Построение доверительных интервалов

Пусть мы имеем оценку а. Реальное значение коэффициента уравнения регрессии a лежит где-то рядом, но где точно, мы узнать не можем. Однако, мы можем построить интервал, в который это реальное значение попадет с некоторой вероятностью. Доказано, что:

с вероятностью Р = 1 - g

где tg/2(n-1) - g/2-процентная точка распределения Стьюдента с (n-1) степенями свободы – определяется из специальных таблиц.

При этом уровень значимостиg устанавливается произвольно.

Неравенство можно преобразовать следующим образом:

,

или, что то же самое:

Аналогично, с вероятностью Р = 1 - g:

откуда следует:

,

или:

Уровень значимости g - это вероятность того, что на самом деле истинные значения a и b лежат за пределами построенных доверительных интервалов. Чем меньше его значение, тем больше величина tg/2(n-1), соответственно, тем шире будет доверительный интервал.

6. Проверка статистической значимости коэффициентов регрессии

Мы получили МНК-оценки коэффициентов, рассчитали для них доверительные интервалы. Однако мы не можем судить, не слишком ли широки эти интервалы, можно ли вообще говорить о значимости коэффициентов регрессии.

Гипотеза Н0: предположим, что a=0, т. е. на самом деле независимой постоянной составляющей в отклике нет (альтернатива – гипотеза Н1: a¹ 0).

Для проверки этой гипотезы, с заданным уровнем значимости g, рассчитывается t-статистика, для парной регрессии:

Значение t-статистики сравнивается с табличным значением tg/2(n-1) - g/2-процентной точка распределения Стьюдента с (n-1) степенями свободы.

Если |t| < tg/2(n-1) – гипотеза Н0 не отвергается (обратить внимание: не «верна», а «не отвергается»), т. е. мы считаем, что с вероятностью 1-g можно утверждать, что a = 0.

В противном случае гипотеза Н0 отвергается, принимается гипотеза Н1.

Аналогично для коэффициента b формулируем гипотезу Н0: b = 0, т. е. переменная, выбранная нами в качестве фактора, на самом деле никакого влияния на отклик не оказывае.

Для проверки этой гипотезы, с заданным уровнем значимости g, рассчитывается t-статистика:

и сравнивается с табличным значением tg/2(n-1).

Если |t| < tg/2(n-1) – гипотеза Н0 не отвергается, т. е. мы считаем, что с вероятностью 1-g можно утверждать, что b = 0.

В противном случае гипотеза Н0 отвергается, принимается гипотеза Н1.

7. Автокорреляция остатков.

1. Примеры автокорреляции.

Возможные причины:

1) неверно выбрана функция регрессии;

2) имеется неучтенная объясняющая переменная (переменные)

2. Статистика Дарбина-Уотсона

Очевидно:

0 £ DW £ 4

Если DW близко к нулю, это позволяет предполагать наличие положительной автокорреляции, если близко к 4 – отрицательной.

Распределение DW зависит от наблюденных значений, поэтому получить однозначный критерий, при выполнении которого DW считается «хорошим», а при невыполнении - «плохим», нельзя. Однако, для различных величин n и g найдены верхние и нижние границы, DWL и DWU, которые в ряде случаев позволяют с уверенностью судить о наличии (отсутствии) автокорреляции в модели. Правило:

1) При DW < 2:

а) если DW < DWL – делаем вывод о наличии положительной автокорреляции (с вероятностью 1-g);

б) если DW > DWU – делаем вывод об отсутствии автокорреляции (с вероятностью 1-g);

в) если DWL£ DW £ DWU – нельзя сделать никакого вывода;

2) При DW > 2:

а) если (4 – DW) < DWL – делаем вывод о наличии отрицательной автокорреляции (с вероятностью 1-g);

б) если (4 – DW) > DWU – делаем вывод об отсутствии автокорреляции (с вероятностью 1-g);

в) если DWL£ (4 – DW) £ DWU – нельзя сделать никакого вывода;

8. Гетероскедастичность остатков.

Возможные причины:

- ошибки в исходных данных;

- наличие закономерностей;

Обнаружение – возможны различные тесты. Наиболее простой:

(упрощенный тест Голдфелда – Куандта)

1) упорядочиваем выборку по возрастанию одной из объясняющих переменных;

2) формулируем гипотезу Н0: остатки гомоскедастичны

3) делим выборку приблизительно на три части, выделяя k остатков, соответствующих «маленьким» х и k остатков, соответствующих «большим» х (k»n/3);

4) строим модели парной линейной регрессии отдельно для «меньшей» и «большей» частей

5) оцениваем дисперсии остатков в «меньшей» (s21) и «большей» (s21) частях;

6) рассчитываем дисперсионное соотношение:

7) определяем табличное значение F-статистики Фишера с (k–m–1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя при заданном уровне значимости g

8) если дисперсионное соотношение не превышает табличное значение F-статистики (т. е., оно подчиняется F-распределению Фишера с (k–m–1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя), то гипотеза Н0 не отвергается - делаем вывод о гомоскедастичности остатков. Иначе – предполагаем их гетероскедатичность.

Метод устранения: взвешенный МНК.

Идея: если значения х оказывают какое-то воздействие на величину остатков, то можно ввести в модель некие «весовые коэффициенты», чтобы свести это влияние к нулю.

Например, если предположить, что величина остатка ei пропорциональна значению xi (т. е., дисперсия остатков пропорциональна xi2), то можно перестроить модель следующим образом:

т. е. перейдем к модели наблюдений

где

Таким образом, задача оценки параметров уравнения регрессии методом наименьших квадратов сводится к минимизации функции:

или

где

- весовой коэффициент.