Смекни!
smekni.com

«Анализ модели множественной линейной регрессии» (стр. 1 из 7)

Министерство образования и науки Украины

Донецкий Национальный университет

Кафедра теории вероятности

и математической статистики

специальность

«математическая экономика»

Курсовая работа на тему

«Анализ модели множественной линейной регрессии»

Донецк 2006

План

Введение………………………………………………………………….2

1. Описание модели и предварительный анализ……………………….5

2. Гетероскедастичность

2.1 Гетероскедастичность и ее последствия……………………..6

2.2 Обнаружение гетероскедастичности…………………………7

3. Автокорреляция

3.1 Автокорреляция и ее последствия…………………………...12

3.2 Обнаружение автокорреляции первого порядка:

критерий Дарбина-Уотсона……………………………………………..13

4. Мультиколлинеарность

4.1. Мультиколлинеарность и ее последствия…………………..16

4.2 Обнаружение мультиколлинеарности……………………….17

5. Спецификация модели………………………………………………...18

6. Анализ особенностей модели…………………………………………23

7. Список использованной литературы…………………………………24

8. Приложение 1. Исходные данные…………………………………….25

9. Приложение 2. Стандартизированные данные………………………26

10. Приложение 3. Пример применения метода

Голдфельда-Квандта……………………………………………………..27

Введение

Множественная линейная регрессия является обобщением парной линейной регрессии на случай, когда зависимая переменная гипотетически связана более чем с одной независимой переменной. Вследствие этого многие элементы анализа множественной линейной регрессии совпадают с элементами анализа парной регрессии (как то оценка дисперсии коэффициентов регрессии, проверка гипотезы об их значимости, вычисление коэффициента детерминации и т.д.) Для множественной линейной регрессии, построенной методом наименьших квадратов, также имеет место теорема Гаусса-Маркова:

Предположим, что

, где Х – детерминированная матрица
, имеющая максимальный ранг и

1.

2.

;

3.

;

4.

,

тогда оценка метода наименьших квадратов

является несмещенной, эффективной и состоятельной.

Метод наименьших квадратов применяется в предположении, что кроме условий 1-4 теоремы Гаусса-Маркова выполняются также следующие требования:

5. Модель является линейной относительно параметров;

6.Между объясняющими переменными нет строгой или сильной зависимости;

7. Ошибка

имеет гауссовское распределение с параметрами 0 и
.

Нарушение хотя бы одного из предположений МНК приводит к ухудшению качества модели. В этом случае оценку

нельзя считать несмещенной, эффективной и состоятельной. Нарушение второго условия приводит к гетероскедастичности, третьего – к автокорреляции, шестого – к мультиколлинеарности. Обнаружение этих явлений является необходимым элементом анализа множественной линейной регрессии. В данной работе приведено теоретическое описание методов обнаружения автокорреляции, гетероскедастичности и мультиколлинеарности, а также применение этих методов на конкретном примере.

Не менее важной задачей эконометриста есть правильная спецификация модели (ибо добавление переменной, которая не должна присутствовать в модели, равно как и отсутствие переменной, которая должна содержаться в ней, существенно ухудшает качество модели) и анализ ее особенностей. Этот аспект также будет рассмотрен в данной работе.

1. Описание модели и предварительный анализ

В нашем исследовании этапы анализа множественной парной регрессии будут рассматриваться на примере конкретной модели вида

. (1.1)

Данные, на основе которых строится эта модель приведены в Приложении 1. Оценки коэффициентов регрессии, полученные методом наименьших квадратов приведены в Таблице 1.1.

Таблица 1.1

b4 b3 b2 b1 b0

0,878172

-0,94682

-0,78627

0,224341

75,57982

Однако вследствие того, что исходные данные выражены в различных единицах измерения, имеет смысл перейти к так называемой стандартизированной форме, т.е. центрировать и нормировать исходные данные (см. Приложение 2). Таким образом мы приводим их к сопоставимому виду. Модель в этом случае будет иметь вид

. (1.2)

Коэффициенты для этой новой модели соответственно равны

b4stand

b3stand

b2stand

b1stand

0,142938

-0,68549

-0,00833

0,038692

А уравнение множественной линейной регрессии записывается следующим образом

. (1.3)

Коэффициент детерминации для данной модели равен 0,689985. Проведена проверка на адекватность с помощью критерия Фишера. Модель признана адекватной. В результате проверки на статистическую значимость выяснилось, что значимым является только коэффициент b3stand.

Таким образом, часть стандартной процедуры анализа общая для парной и множественной линейной регрессии завершена, и можно перейти к элементам анализа, более характерным для множественной регрессии.

2. Гетероскедастичность

2.1 Гетероскедастичность и ее последствия

Во втором условии Гаусса—Маркова утверждается, что дисперсия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Случайный член в каждом наблюдении имеет только одно значение, и может возникнуть вопрос о том, что означает его «дисперсия».

Имеется в виду его возможное поведение до того, как сделана выборка. Когда мы записываем модель (1.1), первые два условия Гаусса—Маркова указывают, что случайные члены

,
, ...,
в n наблюдениях появляются на основе вероятностных распределений, имеющих нулевое математическое ожидание и одну и ту же дисперсию. Их фактические значения в выборке иногда будут положительными, иногда — отрицательными, иногда — относительно далекими от нуля, иногда.— относительно близкими к нулю, но у нас нет причин ожидать появления особенно больших отклонений в любом данном наблюдении. Другими словами, вероятность того, что величина
примет какое-то данное положительное (или отрицательное) значение, будет одинаковой для всех наблюдений. Это условие известно как гомоскедастичность, что означает «одинаковый разброс».

Вместе с тем для некоторых выборок, возможно, более целесообразно предположить, что теоретическое распределение случайного члена является разным для различных наблюдений в выборке. Математически гомоскедастичность и гетероскедастичность могут определяться следующим образом:
Гомоскедастичность: Var (

) =
постоянна для всех наблюдений;
Гетероскедастичность: Var (
) =
, она не обязательно одинакова для всех i.

Для чего вводится требование об отсутствии гетероскедастичности? Во-первых, желательно, чтобы дисперсия МНК оценок была наименьшей, т.е. чтобы они обеспечивали максимальную точность. При отсутствии гетероскедастичности обычные коэффициенты регрессии имеют наиболее низкую дисперсию среди всех несмещенных оценок, являющихся линейными функциями от наблюдений у. Если имеет место гетероскедастичность, то оценки МНК, которые мы до сих пор использовали, неэффективны. Можно, по меньшей мере в принципе, найти другие оценки, которые имеют меньшую дисперсию и, не менее, являются несмещенными.
Вторая, не менее важная причина заключается в том, что сделанные оценки стандартных ошибок коэффициентов регрессии будут неверны. Они вычисляется на основе предположения о том, что распределение случайного члена гомоскедастично; если это не так, то они неверны. Вполне вероятно, что стандартные ошибки будут занижены, а следовательно, t-статистика — завышена, будет получено неправильное представление о точности оценки уравнения регрессии. Возможно, будет принята гипотеза, что коэффициент значимо отличается от нуля данном уровне значимости, тогда как в действительности это не так.