Курс социально-экономической статистики (стр. 170 из 182)

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший.

В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим λ_v -му значению.

Собственные значения λ₁ ≥ ... ≥ λ_v.... ≥ λ_k находятся как корни характеристического уравнения

(53.35)

Собственный вектор V_v, соответствующий собственному значению λ_v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):

(53.36)

Нормированный собственный вектор U_v равен

Из условия ортогональности матрицы U следует, что U^-1 = U^T, но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию

Так как у подобных матриц суммы диагональных элементов равны, то

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь

Таким образом,

(53.37)

Представим матрицу факторных нагрузок А в виде

(53.38)

а v-й столбец матрицы А — как

где U_v — собственный вектор матрицы R, соответствующий собственному значению λ_v.

Найдем норму вектора А_v:

(53.39)

Здесь учитывалось, что вектор U_v — нормированный и U

U_v = 1. Таким образом,

Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что

(53.40)

Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты определяется по формуле

Суммарный вклад т первых главных компонент определяется из выражения

Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f_v используются лишь те х_j, для которых |a_jv| > 0,5.

Значения главных компонент для каждого i-го объекта (i = 1, 2, .... n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы

откуда

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Пример. Построение регрессионного уравнения

По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.

Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x₁ и x₄). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x₁, х₂, х₃, х₄, х₅ (табл. 53.2).

Таблица 53.2

Собственные значения главных компонент

Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок

звездочкой указаны элементы а_jv = rx_jf_v, учитывающиеся при интерпретации главных компонент f_v, где j, v = 1, 2, ..., 5.

Из матрицы факторных нагрузок А следует, что первая главная компонента наиболее тесно связана со следующими показателями: x₁ — число колесных тракторов на 100 га (a₁₁ = rx₁f₁ = 0,95); х₂ — число зерноуборочных комбайнов на 100 га (rx₂f₁ = 0,97); х₃ — число орудий поверхностной обработки почвы на 100 га (rx₃f₁ = 0,94). В этой связи первая главная компонента — f₁ — интерпретирована как уровень механизации работ.

Вторая главная компонента — f₂ — тесно связана с количеством удобрений (х₄) и химических средств оздоровления растений (x₅), расходуемых на гектар, и интерпретирована как уровень химизации растениеводства.

Уравнение регрессии на главных компонентах строится по данным вектора значений результативного признака Y и матрицы F значений главных компонент.

Некоррелированность главных компонент между собой и тесноту их связи с результативным признаком у показывает матрица парных коэффициентов корреляции (табл. 53.3).

Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что результативный признак у наиболее тесно связан с первой (r_yf1 = 0,48), третьей (r_yf3 = 0,37) и. второй (r_yf2 = 0,34) главными компонентами. Можно предположить, что только эти главные компоненты войдут в регрессионную модель у.

Таблица 53.3

Матрица парных коэффициентов корреляции

Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t-критерия):

(53.41)

Качество модели характеризуют: множественный коэффициент детерминации r

= 0,517, средняя относительная ошибка аппроксимации

= 10,4%, остаточная дисперсия s² = 1,79 и F_набл = 121. Ввиду того что F_набл > F_кр =2,85 при α = 0,05, v₁ = 6, v₂ = 14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии — β₁, β₂, β₃, β₄ — не равен нулю.

Если значимость уравнения регрессии (гипотеза Н₀: β₁ = β₂ = β₃ = β₄= 0 проверялась при α = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H₀: β_j = 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при α = 0,1. Тогда при α = 0,1, v = 14 величина t_кр = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии β₁, β₂, β₃.

Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид

(53.42)

Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f₄ и f₅, не отразилось на значениях коэффициентов уравнения b₀ = 9,52, b₁ = 0,93, b₂ = 0,66 и соответствующих t_j (j = 0, 1, 2, 3).

Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42).