Смекни!
smekni.com

Основные понятия статистики (стр. 13 из 13)

Исходное условие МНК для линейной связи имеет вид:

Для отыскания значений параметров а и b, при которых f(a,b) принимает минимальное значение, частные производные функции приравниваем нулю и преобразуем получаемые уравнения, которые называются нормальными уравнениями МНК для линейной формы уравнения регрессии:

Отсюда система нормальных уравнений имеет вид:

Нормальные уравнения МНК для прямой линии регрессии являются системой двух уравнений с двумя неизвестными а и b. Все остальные величины, входящие в систему, определяются по исходной информации. Таким образом, однозначно вычисляются при решении этой системы уравнений оба параметра уравнения линейной регрессии.

Если первое нормальное уравнение разделить на п, получим:

(2)

По уравнению (2) обычно на практике вычисляется свободный член уравнения регрессии а. Параметр b вычисляется по преобразованной формуле, которую можно вывести, решая систему нормальных уравнений относительно b:

. (3)

Так как знаменатель этого выражения есть не что иное, как дисперсия признака х, т. е. σ2, то можно записать формулу коэффициента регрессии в виде:

(4)

Подставив в (3) выражение для s2x, получим:

. (5)

Параметры уравнения регрессии можно вычислить через определители:

(6)

где D - определитель системы;

Da - частный определитель, получаемый в результате замены коэффициентов при а свободными членами из правой части системы уравнений;

Db - частный определитель, получаемый в результате замены коэффициентов при b свободными членами из правой части системы уравнений.

Коэффициент парной линейной регрессии, обозначенный

, имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Он измеряет среднее по совокупности отклонение у от его средней величины при отклонении признака х от своей средней величины на принятую единицу измерения.

Теснота парной линейной корреляционной связи, как и любой другой показатель, может быть измерена корреляционным отношением h. Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи - коэффициент корреляции rxy. Этот показатель представляет собой стандартизованный коэффициент регрессии, т. е. коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака:

. (7)

Коэффициент корреляции был предложен английским статистиком и философом Карлом Пирсоном (1857 - 1936). Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на rxy его среднего квадратического отклонения.

В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков.

Обычно считают связь сильной, если r³. 0,7; средней тесноты, при 0,5 £r£ 0,7; слабой при r < 0,5. Квадрат коэффициента корреляции называется коэффициентом детерминации:

Эта формула используется при. анализе множественной корреляции. Умножив числитель и знаменатель последнего выражения на

получим:

и окончательно, коэффициент корреляции принимает вид:

. (8)

Эта формула соответствует формуле (7) для коэффициента регрессии.

Средние квадратическое отклонение можно выразить через средние величины признака:

.

Подставив эти выражения в (8), получим:

. (9)

Эта формула (9) удобнее для расчетов, если средние величины признаков и средние квадраты индивидуальных величин вычислены ранее.

Рассмотрим фактический пример анализа корреляционной парной линии связи по данным 16 сельхозпредприятий о затратах на 10 гектар пашни и о урожайности с 1 гектара. (табл.1).

Средние значения признаков: x̅ = 1605 руб.; у̅ = 35,2 ц/голов.

Сопоставляя знаки отклонений признаков xи у от средних величин, видим явное преобладание совпадающих по знакам пар отклонений: их 14 и только 2 пары несовпадающих знаков.

Таблица 1.

Корреляция между затратами и урожайностью

Номера единиц сово-куп-ности Затраты на 10 гектар руб хi Урожайность с гектара,ц, yi xi - x̅ yi - y̅ (xi - x̅) ´´ (yi - y̅) (xi - x̅)2 (yi - y̅)2 Расчетные значения урожайности , ц
1 1602 34,2 -3 -1,0 +3,0 9 1,00 35,1
2 1199 19,6 -406 -15,6 +6333,6 164836 243,36 21,1
3 1321 27,3 -283 -7,9 +2235,7 80089 62,41 25,3
4 1678 32,5 +73 -2,7 -197,1 5329 7,29 37,7
5 1600 33,2 -5 -2,0 +10,0 25 4,00 35,0
6 1355 31,8 -250 -3,4 +850,0 62500 11,56 26,5
7 1413 30,7 -192 ^,5 +864,0 36864 20,25 28,5
8 1490 32,6 -115 -2,6 +299,0 13225 6,76 31,2
9 1616 26,7 +11 -8,5 -93,5 121 72,25 35,6
10 1693 42,4 +88 +7,2 +633,6 7744 51,84 38,2
11 1665 37,9 +60 +2,7 +162,0 3600 7,29 37,3
12 1666 36,6 +61 +1,4 +85,4 3721 1,96 37,3
13 1628 38,0 +23 +2,8 +64,4 529 7,84 36,0
14 1604 32,7 -1 -2,5 +2,5 1 6,25 35,2
15 2077 51,7 +472 +16,5 +7788 222784 272,25 51,6
16 2071 55,3 +466 +20,1 +9366,6 217156 404,01 51,4
S25678 563,2 - - +28473,7 818533 1180,32 563,0

Вычислим на основе итоговой строки табл1. параметр парной линейной корреляции:

Он означает, что в среднем по изучаемой совокупности отклонение затрат от средней величины на 1 руб. приводило к отклонению с тем же знаком средней урожайности на 0,0347 ц, т. е. на 3,47 кг на 1га. При нестрогой интерпретации говорят: «С увеличением затрат на 1 руб. в среднем урожайность возрасла на 3,47 кг». Свободный член уравнения регрессии : а = 35,2 - 0,0347 • 1605 = - 20,49.

Уравнение регрессии в целом имеет вид:

Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признакам и близких значений. Если же область существования результативного признака

включает нулевое значение признака-фактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например среднюю урожайность картофеля при отсутствии органических удобрений.

Графическое изображение корреляционной связи по данным табл.1. приведено на рис. 1.

Коэффициент корреляции, рассчитанный на основе табл. 8.1,


Рис. 1. Корреляция затрат с урожайностью

Контрольные вопросы:

1. Сформулируйте суть метода наименьших квадратов и условия его применимости.

2. Что означает несмещенность, состоятельность и эффективность оценок МНК?

3. Дайте определение регрессионной форме связи.

4. Что такое теснота корреляционной зависимости?

5. Найти выборочное уравнение линейной регрессии признака Y на признаке X и коэффициент их корреляции по экспериментальным данным из таблицы

nij X
10 15 20 25 30 35
Y 30 2 6
40 4 4
50 7 35 8
60 2 10 8
70 5 6 3