Смекни!
smekni.com

Парная и множественная регрессия и корреляция (стр. 1 из 4)

1. Парная линейная регрессия и корреляция

Цель работы - овладеть навыками определения параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel.

1.1 Решение задач с использованием формул

1.1.1 Параметры a и b линейной регрессии

рассчитываются с помощью метода наименьших квадратов. Для этого составим систему нормальных уравнений (1).

По исходным данным определим

,
,
,
,
в расчетной таблице 1.

Таблица 1 Расчет показателей парной линейной регрессии и корреляции

2
2
1 9.8 10.2 99.96 96.04 104.04 9.847 0.035 0.125 -1.575
2 11.3 10.1 114.13 127.69 102.01 10.088 0.001 0.000 11.300
3 11.5 10.1 116.15 132.25 102.01 10.120 -0.002 0.000 11.500
4 11.3 9.2 103.96 127.69 84.64 10.088 -0.096 0.788 11.300
5 10.9 10.7 116.63 118.81 114.49 10.023 0.063 0.458 10.900
6 11.4 9 102.6 129.96 81 10.104 -0.123 1.218 11.400
7 12.6 10.4 131.04 158.76 108.16 10.297 0.010 0.011 12.409
8 12.2 11.1 135.42 148.84 123.21 10.232 0.078 0.753 12.164
Итого 91 80.8 919.89 1040.04 819.56 80.797 -0.034 3.353 79.397
Среднее 11.375 10.1 114.986 130.005 102.445 10.100 -0.004 ´ ´

Система нормальных уравнений составит:

Решив систему, получим: a = 8,2717; b = 0,1607.

Уравнение линейной регрессии имеет вид:

.

Параметры уравнения можно определить и по следующим формулам:

= 10,1 – 0,1608. 11,375= 8,2709

Величина коэффициента регрессии b = 0,1607 означает, что с ростом среднедушевых доходов на 1 тыс. руб. общий коэффициент рождаемости увеличится в среднем на 0,1607 раз.

1.1.2 Средний коэффициент эластичности для линейной регрессии находится по формуле:

0,181

При увеличении величины среднедушевого дохода на 1%, общий коэффициент рождаемости в среднем увеличится на 0,181%.


1.1.3 Линейный коэффициент парной корреляции (r) определяется по формуле:

,

где средние квадратические отклонения:

тогда

, значит связь между среднедушевым доходом и рождаемостью очень слабая.

1.1.4 Определим коэффициент детерминации:

Таким образом, вариация величины рождаемости на 3,6% зависит от вариации уровня среднедушевых доходов населения, а на остальные (100%-3,6%) 96,4% − от вариации факторов, не включенных в модель.

Подставляя в уравнение регрессии фактические значения x, определим теоретические (расчетные) значения

(таблица 1) и найдем величину средней ошибки аппроксимации (
):

=
=0,425

Так как допустимый предел значений

не более 8-10%, качество модели по данному показателю удовлетворительное. Однако средняя ошибка аппроксимации не является главным критерием оценки значимости модели.

С помощью F−критерия Фишера оценим статистическую надежность результатов регрессионного моделирования:

Fфакт=

=
.

Fтабл = 5,99 при

.

Так как Fфакт < Fтабл, уравнение регрессии не значимо, статистически не надежно.

1.2 Решение задачи с помощью MS Excel

1.2.1 Параметры линейной регрессии

можно определить с помощью встроенной статистической функции ЛИНЕЙН MS Excel. Порядок вычисления следующий:

1) ввожу исходные данные (рисунок 1).

2) выделяю область пустых ячеек 5´2 (5 строк, 2 столбца) с целью вывода результатов регрессионной статистики или область 1´2 – для получения только оценок коэффициентов регрессии;

3) активизирую Мастер функций любым из способов:

а) в главном меню выбираю Вставка / Функция;

б) на панели инструментов Стандартная щелкаю по кнопке Вставка функции;

Рисунок 1 Ввод данных для корреляционно-регрессионного анализа

4) в окне «Категория» выбераю Статистические, в окне «Функция» – ЛИНЕЙН. Щелкаю по кнопке ОК (рисунок 2);

Рисунок 2 Диалоговое окно Мастер функций

5) заполняю аргументы функции (рисунок 3):


Рисунок 3 Диалоговое окно Аргументы функции

Щелкаю по кнопке ОК;

6) в левой верхней ячейке выделенной области появился первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажимаю на клавишу <F2>, а затем – на комбинацию клавиш <CTRL> + <SHIFT> + <ENTER>.

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Среднеквадратическое отклонение b Среднеквадратическое отклонение a
Коэффициент детерминации R2 Среднеквадратическое отклонение y
F – статистика Число степеней свободы
Регрессионная сумма квадратов Остаточная сумма квадратов

Результаты вычислений функции ЛИНЕЙН представлены на рисунке 4.

Рисунок 4 Результаты вычислений функции ЛИНЕЙН

1.2.2 С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности. Порядок действий следующий:

1) проверяю доступ к пакету анализа. В главном меню последовательно выбераю Сервис / Настройки. Устанавливаю флажок Пакет анализа;

2) в главном меню выбираю Сервис / Анализ данных / Регрессия. Щелкаю по кнопке ОК;

3) после вызова режима Регрессия на экране появляется диалоговое окно (рисунок 5), в котором задаются следующие параметры:

Рисунок 5 Диалоговое окно режима Регрессия

Результаты регрессионного анализа для исходных данных представлены на рисунке 6.


Вывод итогов

Регрессионная статистика
Множественный R 0,19101862
R-квадрат 0,03648811
Нормированный R-квадрат -0,1240972
Стандартная ошибка 0,74755394
Наблюдения 8

Дисперсионный анализ

df SS MS F Значимость F
Регрессия 1 0,12697864 0,126978637 0,2272195 0,6504571
Остаток 6 3,35302136 0,558836894
Итого 7 3,48
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 8,271668362 3,844685341 2,151455224 0,07495556 1,135937744 17,67927447
Переменная X 1 0,160732452 0,337194727 0,476675461 0,6504571 0,664353319 0,985818223

Вывод остатка