Понятие о корреляции и корреляционном анализе в психологии (стр. 3 из 4)

1. Сравниваемые признаки должны быть измерены в порядковой шкале.

2. Число варьирующих признаков в сравниваемых переменных Х и Y должно быть одинаковым.

3. Величина «τ» Кендалла независима от закона распределения величин Х и Y.

4. При расчетах этого коэффициента не допускается использование одинаковых рангов.

5. Для оценки уровня достоверности коэффициента «τ» следует пользоваться формулой (5) и таблицей критических значений для t-критерия Стьюдента при k= n -1.

3.7 Бисериальный коэффициент корреляции

В тех случаях, когда одна переменная измеряется в дихотомической шкале (переменная X), а другая в шкале интервалов или отношений (переменная Y), используется бисериальный коэффициент корреляции. Мы помним, что переменная X, полученная в дихотомической шкале, принимает только два значения (кода) 0 и 1. Особо подчеркнем, что несмотря на то, что этот коэффициент изменяется в диапазоне от - 1 до + 1 его знак для интерпретации результатов не имеет значения. Это исключение из общего правила.

Расчет этого коэффициента производится по формуле:

(формула 8)

где Х1 среднее по тем элементам переменной Y, которым соответствует код (признак) 1 в переменной X. Здесь n1 — количество единичек в переменной X.

Х0 среднее по тем элементам переменной Y, которым соответствует код (признак) 0 в переменной X. Здесь n0 — количество нулей в переменной X.

N = n1 + n0 — общее количество элементов в переменной X.

S_y— стандартное отклонение переменной Y, вычисляемое по формуле

Значимость бисериального коэффциента корреляции оценивается по величине Тф t-критерия Стьюдента с числом степеней свободы k = n - 2.

Для применения бисериального коэффициента корреляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в разных шкалах: одна Х — в дихотомической шкале; другая Y—в шкале интервалов или отношений.

2. Предполагается, что переменная Y имеет нормальный закон распределения.

3. Число варьирующих признаков в сравниваемых переменных Х и Y должно быть одинаковым.

4. Для оценки уровня достоверности бисериального коэффициента корреляции следует пользоваться формулой (5) и таблицей критических значений для t-критерия Стьюдента при k = n - 2.

3.8 Рангово-бисериальный коэффициент корреляции

В тех случаях, когда одна переменная измеряется в дихотомической шкале (переменная X), а другая в ранговой шкале (переменная Y), используется рангово-бисериальный коэффициент корреляции. Мы помним, что переменная X, измеренная в дихотомической шкале, принимает только два значения (кода) 0 и 1. Особо подчеркнем: несмотря на то что этот коэффициент изменяется в диапазоне от -1 до +1, его знак для интерпретации результатов не имеет значения. Это еще одно исключение из общего правила.

Расчет этого коэффициента производится по формуле:

(формула 9)

где Х1 — средний ранг по тем элементам переменной Y, которым соответствует код (признак) 1 в переменной X;

Для применения рангово-бисериального коэффициента корреляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в разных шкалах: одна X— в дихотомической шкале; другая Y—в ранговой шкале.

2. Число варьирующих признаков в сравниваемых переменных Х и Y должно быть одинаковым.

3. Для оценки уровня достоверности рангово-бисериального коэффициента корреляции следует пользоваться формулой (5) и таблицей критических значений для t-критерия Стьюдента при k = n - 2.

3.9 Корреляционное отношение Пирсона η

Все рассмотренные выше коэффициенты корреляции служат для выявления только линейной зависимости между признаками. Для измерения нелинейной зависимости К. Пирсон предложил показатель, который он назвал корреляционным отношением. Напомним, что коэффициент корреляции r_xy(формула 11.1), который был введен Пирсоном, характеризует связь между переменными Х и Y с точки зрения прямой или обратной пропорциональности, иными словами, получаемая связь между переменными является согласованной и такой, что с увеличением одной переменной другая (в среднем) либо только увеличивается, либо только уменьшается (в среднем). При этом в первом случае получается положительный коэффициент корреляции, во втором отрицательный.

Корреляционное отношение описывает искомую связь, условно говоря, с двух сторон: со стороны переменной Х по отношению к Y, и со стороны переменной Y по отношению к X. Соответственно этому корреляционное отношение представляет собой два показателя, обозначаемые как h_yx и h_xy. Они вычисляются отдельно друг от друга. Однако они связаны между собой, поскольку при строго линейной зависимости между переменными Х и Y имеет место равенство h_yx = h_xy В этом случае величины обоих показателей корреляционного отношения совпадают с величиной коэффициента корреляции Пирсона.

Показатели корреляционного отношения вычисляются по следующим двум формулам:

(формула 10.1)

(формула 10.2)

здесь х и у общие, а х_y и у_x — групповые средние арифметические, f_y и f_x частоты рядов X и Y. Согласно этим формулам оба показателя всегда положительны и располагаются в интервале от 0 до +1.

Подчеркнем, что, как правило, h_yx ≠ h_xy. Равенство между этими коэффициентами возможно лишь при наличии строго линейной связи между коррелируемыми переменными. Именно поэтому различие между h_yx и h_xy убудет означать наличие не линейной, а связи более сложного типа между коррелируемыми признаками.

Для вычисления корреляционного соотношения h_yx (Y по X) или h_xy (X по Y) необходимо выполнить следующие действия:

1) расположить по порядку исходные данные по Х от меньшей величины к большей, при этом сохранив значения соответствующих величин У по отношению к Х;

2) определить частоты переменной Х — обозначение f_x;

3) подсчитать арифметические (частные) средние по переменной Y для соответствующей частоты f_x — обозначение у_x ;

4) найти варианты (неповторяющиеся значения) величины Х — обозначение х_i;

5) расположить по порядку исходные данные по Y от меньшей величины к большей, при этом сохранив значения соответствующих величин Х по отношению к Y;

6) определить частоты переменной Y— обозначение f_y;

7) подсчитать арифметические (частные) средние по переменной Х для соответствующей частоты f_y — обозначение х_y;

8) найти варианты (неповторяющиеся значения) переменной Y — обозначение y_i;

9) определить общие средние по переменной Х и Y обозначение x и у ;

10) произвести расчет по формулам (10.1) и (10.2);

11) определить уровень значимости полученных показателей корреляционного отношения но таблице критических значений для t-критерия Стьюдента при k = n — 2.

Разумеется, корреляционное отношение Пирсона не дает возможности установить характер выявленной зависимости — она может быть параболической, кубической, логарифмической и др. Из результатов анализа ясно только одно: связь между переменными Х и Y носит нелинейный характер. Более точно характер связи можно определить с помощью метода регрессионного анализа.

Для применения корреляционного отношения Пирсона необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что обе переменные имеют нормальный закон распределения.

3. Число варьирующих признаков в сравниваемых переменных Х и У должно быть одинаковым.

4. Для оценки уровня достоверности корреляционного отношения Пирсона следует пользоваться формулой (5) и таблицей критических значений для t-критерия Стьюдента при k = n — 2.

3.10 Множественная корреляция

Наряду с анализом связей между двумя рядами данных можно проводить анализ многомерных корреляционных связей. Наиболее простым случаем нахождения подобной зависимости является вычисление коэффициентов множественной корреляции между тремя переменными X, Y и Z. В соответствии с числом переменных вычисляются три коэффициента множественной корреляции. Собственно говоря, коэффициент множественной корреляции оценивает тесноту линейной связи одной переменной, например X, с двумя остальными, Y и Z, и обозначается как r_x₍_yz₎ . При оценке тесноты линейной связи переменной Y с переменными Х и Z, коэффициент множественной корреляции обозначается как r_y₍_xz₎

Вычисление коэффициентов множественной корреляции базируется на коэффициентах линейной корреляции между переменными Х и Y — r_xy, Х и Z, — r_xz, У и Z, — r_yz. Для вычисления одного из коэффициентов множественной корреляции, например r_x₍_yz₎ используется следующая формула:

(формула 11)

где r_xy_,r_xz, r_yz— коэффициенты линейной корреляции между парами переменных Х и Y, Х и Z, Y и Z..

Коэффициент множественной корреляции принимает значения от 0 до 1. Значимость этого коэффициента оценивают по величине t-критерия Стьюдента с числом степеней свободы k = n - 3.

Для применения множественного коэффициента корреляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что все переменные имеют нормальный закон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

4. Для оценки уровня достоверности корреляционного отношения Пирсона следует пользоваться формулой (5) и таблицей критических значений для t-критерия Стыодента при k = n - 3.

3.11 Частная корреляция

Название «частная корреляция» был впервые использовано в работе Д. Юла в 1907. Смысл этого понятия иллюстрирует следующий пример. Предположим, что при обработке некоторых данных удалось обнаружить значимую отрицательную корреляцию между длиной волос и ростом (т.е. люди низкого роста обладают более длинными волосами). На первый взгляд это может показаться странным: однако, если включить в расчет еще один признак — переменную «пол» и использовать не линейную, а частную корреляцию, то результат получит закономерное объяснение. поскольку женщины в среднем имеют более длинные волосы, чем мужчины, а их рост в среднем ниже, чем у мужчин. После учета переменной «пол» частная корреляция между длиной волос и ростом может оказаться близкой к единице. Иными словами, если одна величина коррелирует с другой, то это может быть отражением того факта, что они обе коррелируют с третьей величиной или с совокупностью величин.