Чем ближе коэффициент корреляции к 1. Коэффициент корреляции в Excel. Ограничения корреляционного анализа

7.3.1. Коэффициенты корреляции и детерминации. Можно количественно определить тесноту связи между факторами и ее направленность (прямую или обратную), вычислив:

1) если нужно определить носящую линейный характер взаимосвязь между двумя факторами, - парный коэффициент корреляции : в 7.3.2 и 7.3.3 рассмотрены операции вычисления парного линейного коэффициента корреляции по Бравэ–Пирсону (r ) и парного рангового коэффициента корреляции по Спирмену (r );

2) если мы хотим определить взаимосвязь между двумя факторами, но зависимость эта явно нелинейная - то корреляционное отношение ;

3) если мы хотим, определить связь между одним фактором и некоторой совокупностью других факторов - то (или, что то же самое, «коэффициент множественной корреляции»);

4) если мы хотим выявить изолированно связь одного фактора только с конкретным другим, входящим в группу факторов, воздействующих на первый, для чего приходится считать влияние всех остальных факторов неизменным - то частный (парциальный) коэффициент корреляции .

Любой коэффициент корреляции (r, r) не может по абсолютной величине превышать 1, то есть –1 < r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Знак при коэффициенте корреляции определяет направ­ленность связи: знак «+» (либо отсутствие знака) означает, что связь прямая (положительная ), знак «–» - что связь обратная (отрицательная ). К тесноте связи знак никакого отношения не имеет

Коэффициент корреляции характеризует статистическую взаимосвязь. Но часто нужно определить другого типа зависимость, а именно: каков вклад некоторого фактора в формирование другого связанного с ним фактора. Такого рода зависимость с некоторой долей условности характеризуется коэффициентом детерминации (D ), определяемым по формуле D = r 2 ´100% (где r - коэффициент корреляции по Бравэ–Пирсону, см. 7.3.2). Если измерения проводились в шкале порядка (шкале рангов) , то с некоторым ущербом для достоверности можно вместо значения r подставить в формулу значение r (коэффициента корреляции по Спирмену, см. 7.3.3).

Например, если мы получили как характеристику зависимости фактора Б от фактора А коэффициент корреляции r = 0,8 или r = –0,8, то D = 0,8 2 ´100% = 64%, то есть около 2½ 3. Следовательно, вклад фактора А и его изменений в формирование фактора Б составляет примерно 2½ 3 от суммарного вклада всех вообще факторов.

7.3.2. Коэффициент корреляции по Бравэ-Пирсону. Процедуру вычисления коэффициента корреляции по Бравэ–Пирсону (r ) можно применять только в тех случаях, когда связь рассматривается на базе выборок, имеющих нормальное распределение частот (нормальное распределение ) и полученных измерениями в шкалах интервалов или отношений. Расчетная формула этого коэффициента корреляции:



å (x i – )(y i – )

r = .

n×s x ×s y

Что показывает коэффициент корреляции? Во-первых, знак при коэффициенте корреляции показывает направленность связи, а именно: знак «–» свидетельствует о том, что связь обратная , или отрицательная (имеет место тенденция: с убыванием значений одного фактора соответствующие значения другого фактора растут, а с возрастанием - убывают), а отсутствие знака или знак «+» свидетельствуют о прямой , или положительной связи (имеет место тенденция: с увеличением значений одного фактора увеличиваются и значения другого, а с уменьшением - уменьшаются). Во-вторых, абсолютная (не зависящая от знака) величина коэффициента корреляции говорит о тесноте (силе) связи. Принято считать (в достаточной мере условно): при значениях r < 0,3 корреляция очень слабая , нередко ее просто не принимают в расчет, при 0,3 £ r < 5 корреляция слабая , при 0,5 £ r < 0,7) - средняя , при 0,7 £ r £ 0,9) - сильная и, наконец, при r > 0,9 - очень сильная. В нашем случае (r » 0,83) связь обратная (отрицательная) и сильная.

Напомним: значения коэффициента корреляции могут находиться в интервале от –1 до +1. Выход значения r за эти пределы свидетельствует о том, что в расчетах допущена ошибка . Если r = 1, то это значит, что связь не статистическая, а функциональная - чего в спорте, биологии, медицине практически не бывает. Хотя при небольшом количестве измерений случай ный подбор значений, дающий картину функциональной связи, возможен, но такой случай тем менее вероятен, чем больше объем сопоставляемых выборок (n), то есть количество пар сравниваемых измерений.

Расчетная таблица (табл. 7,1)строится соответственно формуле.

Таблица 7.1.

Расчетная таблица для вычисления по Бравэ–Пирсону

x i y i (x i – ) (x i – ) 2 (y i – ) (y i – ) 2 (x i – )(y i – )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 åy i =56,1 =5,1 å(x i – ) 2 = =1,78 å(y i – ) 2 = = 1,015 å(x i – )(y i – )= = –1,24

Поскольку s х = ï ï = ï ï» 0,42, а

s y =ï ï» 0,32, r » –1,24ï (11´0,42´0,32)» –1,24ï 1,48 » –0,83 .

Иными словами, нужно очень твердо знать, что коэффициент корреляции не может по абсолютной величине превосходить 1,0. Это нередко позволяет избежать грубейших ошибок, точнее - найти и исправить допущенные при подсчетах ошибки.

7.3.3. Коэффициент корреляции по Спирмену . Как уже было сказано, применять коэффициент корреляции по Бравэ–Пирсону (r) можно только в тех случаях, когда анализируемые факторы по распределению частот близки к нормальному и значения вариант получены измерениями обязательно в шкале отношений или в шкале интервалов, что бывает, если они выражены физическими единицами. В остальных случаях находят коэффициент корреляции по Спирмену (r ). Впрочем, этот коэффициент можно применять и в случаях, когда разрешено (и желательно! ) применять коэффициент корреляции по Бравэ-Пирсону. Но следует иметь в виду, что процедура определения коэффициента по Бравэ-Пирсону обладает большей мощностью («разрешающей способностью »), поэтому r более информативен, чем r . Даже при большом n отклонение r может быть порядка ±10%.

Таблица 7.2 Расчетная формула коэффици-

x i y i R x R y |d R | d R 2 ента корреляции по Спирмену

13,2 4,75 8,5 3,0 5,5 30,25 r = 1 – . Вос

13,5 4,70 11,0 2,0 9,0 81,00 пользуемся нашим примером

12,7 5,10 4,5 6,5 2,0 4,00 для расчета r , но построим

12,5 5,40 3,0 9,0 6,0 36,00 иную таблицу (табл.7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Подставим значения:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Мы видим: r оказался немного

12,4 5,60 2,0 11,0 9,0 81,00 больше, чем r , но это разли-

12,3 5,50 1,0 10,0 9,0 81,00 чие не очень велико. Ведь при

12,7 5,20 4,5 8,0 3,5 12,25 таком малом n значения r и r

åd R 2 = 423 очень уж приблизительны, мало достоверны, их действительное значение может колебаться в широких пределах, поэтому различие r иr в 0,1 малосущественно. Обычно r рассматривают как аналог r , но только менее точный . Знаки при r и r показывает направленность связи.

7.3.4. Применение и проверка достоверности коэффициентов корреляции. Определение степени корреляционной зависимости между факторами необходимо для управления развитием нужного нам фактора: для этого приходится влиять на другие факторы, существенно влияющие на него, и нужно знать меру их действенности. Знать про взаимосвязь факторов нужно для разработки или выбора готовых тестов: информативность теста определяется корреляцией его результатов с проявле­ниями интересующего нас признака или свойства. Без знания корреляций невозможны любые формы отбора.

Выше было отмечено, что в спортивной и вообще педагогической, медицинской и даже экономической и социологической практике большой интерес представляет определение того вклада , который один фактор вносит в формирование другого . Это связано с тем, что помимо рассматриваемого фактора-причины на целевой (интересующий нас) фактор действуют, давая каждый тот или иной вклад в него, и другие.

Считается, что мерой вклада каждого фактора-причины может служить коэффициент детерминации D i = r 2 ´100%. Так, например, если r = 0,6, т.е. связь между факторами А и Б средняя, то D = 0,6 2 ´100% = 36%. Зная, таким образом, что вклад фактора А в формирование фактора Б приблизительно 1½ 3, можно, например уделять целенаправленному развитию этого фактора приблизительно 1½ 3 тренировочного времени. Если же коэффициент корреляции r = 0,4 , то D = r 2 100% =16%, или примерно 1½ 6 - в два с лишним раза меньше, и уделять его развитию по этой логике следует соответственно лишь 1½ 6 часть тренировочного времени.

Величины D i для разных существенных факторов дают приблизительное представление о количественном взаимоот­ношении их влияний на интересующий нас целевой фактор, ради совершенствования которого мы, собственно, и работаем над другими факторами (например, прыгун в длину с разбега работает над повышением скорости своего спринтерского бега, так как оно является тем фактором, который дает самый значительный вклад в формирование результата в прыжках).

Напомним, что определяя D можно вместо r поставить r , хотя, конечно, точность определения оказывается ниже.

На основе выборочного (рассчитанного по выборочным данным) коэффициента корреляции нельзя делать вывод о достоверности факта наличия связи между рассматриваемыми факторами вообще. Для того, чтобы сделать такой вывод с той или иной степенью обоснованности, используют стандартные критерии значимости корреляции . Их применение предполагает линейную зависимость между факторами и нормальное распределение частот в каждом из них (имея в виду не выборочное, а генеральное их представление).

Можно, например, применить t-критерии Стьюдента. Его рас-

четная формула: t p = –2 , где k - исследуемый выборочный коэффициент корреляции, a n - объем сопоставляемых выборок. Полученное расчетное значение t-критерия (t р)сравнивают с табличным при выбранном нами уровне значимости и числе степеней свободы n = n – 2. Чтобы избавиться от расчетной работы, можно воспользоваться специальной таблицей критических значений выборочных коэффициентов корреляции (см. выше), соответствующих наличию достоверной связи между факторами (с учетом n и a ).

Таблица 7.3.

Граничные значений достоверности выборочного коэффициента корреляции

Число степеней свободы при определении коэффициентов корреляции принимают равным 2 (т.е. n = 2) Указанные в табл. 7.3 значения имеют нижней границей доверительного интервала истинного коэффициента корреляции 0, то есть при таких значениях нельзя утверждать, что корреляция вообще имеет место. При значении выборочного коэффициента корреляции выше указанного в таблице можно при соответствующем уровне значимости считать, что истинный коэффициент корреляции не равен нулю.

Но ответ на вопрос, есть ли реальная связь между рассматриваемыми факторами, оставляет место для другого вопроса: в каком интервале лежит истинное значение коэффициента корреляции, каким он может быть на самом деле, при бесконечно большом n ? Этот интервал для любого конкретного значения r и n сопоставляемых факторов можно рассчитать, но удобнее пользоваться системой графиков (номограммой ), где каждая пара кривых, построенная для не которого указанного над ними n , соответствует границам интервала.

Рис. 7.4. Доверительные границы выборочного коэффициента корреляции (a = 0,05). Каждая кривая соответствует указанному над ней n .

Обратясь к номограмме на рис. 7.4, можно определить интервал значений истинного коэффициента корреляции для вычисленных значений выборочного коэффициента корреляции при a = 0,05.

7.3.5. Корреляционные отношения. Если парная корреляция нелинейна , нельзя вычислять коэффициент корреляции, определяют корреляционные отношения . Обязательное требование: признаки должны быть измерены в шкале отношений или в шкале интервалов. Можно вычислять корреляционную зависимость фактора X от фактора Y и корреляционную зависимость фактора Y от фактора X - они различаются. При небольшом объеме n рассматриваемых выборок, представляющих факторы, для вычисления корреляционных отношений можно пользоваться формулами:

корреляционное отношение h x ½ y = ;

корреляционное отношение h y ½ x = .

Здесь и - средние арифметические выборок X и Y, и - внутриклассовые средние арифметические. Tо есть - среднее арифметическое тех значений в выборке фактора Х, с которыми сопряжены одинаковые значения в выборке фактора Y (например, если в факторе X имеются значения 4, 6, и 5, с которыми в выборке фактора Y сопряжены 3 варианты с одинаковым значением 9, то = (4+6+5)½ 3 = 5). Соответственно - среднее арифметическое тех значений в выборке фактора Y, с которыми сопряжены одинаковые значения в выборке фактора Х. Приведем пример и проведем расчет:

Х: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Таблица 7.4

Расчетная таблица

х i y i x y х i – х (х i – х ) 2 х i – х y (x i x y ) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Следовательно, h y ½ x = » 0,63.

7.3.6. Частные и множественный коэффициенты корреляции. Чтобы оценить зависимость между 2-мя факторами, вычисляя коэффициенты корреляции, мы как бы по умолчанию предполагаем, что никакие другие факторы на эту зависимость никакого воздействия не оказывают. В реальности дело обстоит не так. Так, на зависимость между весом и ростом очень существенно влияют калорийность питания, величина систематической физической нагрузки, наследственность и др. Когда нужно при оценке связи между 2-мя факторами учесть существенное влияние других факторов и в то же время как бы изолироваться от них, считая их неизменными , вычисляют частные (иначе - парциальные ) коэффициенты корреляции.

Пример: нужно оценить парные зависимости между 3-мя существенно действующими факторами X, Y и Z. Обозначим r XY (Z) частный (парциальный) коэффициент корреляции между факторами X и Y (при этом величину фактора Z считаем неизменной), r ZX (Y) - частный коэффициент корреляции между факторами Z и X (при неизменном значении фактора Y), r YZ (X) - частный коэффициент корреляции между факторами Y и Z (при неизменном значении фактора X). Используя вычисленные простые парные (по Бравэ-Пирсону) коэффициенты корреляции r XY , r XZ и r YZ , м

ожно вычислить частные (парциальные) коэффициенты корреляции по формулам:

r XY – r XZ ´r YZ r XZ – r XY ´r ZY r ZY –r ZX ´r YZ

r XY (Z) = ; r XZ (Y) = ; r ZY (Х) =

Ö(1–r 2 XZ)(1–r 2 YZ) Ö(1– r 2 XY)(1–r 2 ZY) Ö(1–r 2 ZX)(1–r 2 YX)

И частные коэффициенты корреляции могут принимать значения от –1 до +1. Возведя их в квадрат, получают соответствующие частные коэффициенты детерминации , называемые также частными мерами определенности (умножив на 100, выразим в %%). Частные коэффициенты корреляции больше или меньше отличаются от простых (полных) парных коэффициентов, что зависит от силы влияния на них 3-го фактора (как бы неизменного). Нулевая гипотеза (Н 0), то есть гипотеза об отсутствии связи (зависимости) между факторами X и Y, проверяется (при общем количество признаков k ) вычислением t-критерия по формуле: t Р = r XY (Z) ´ (n –k) 1 ½ 2 ´ (1–r 2 XY (Z)) –1 ½ 2 .

Если t Р < t a n , гипотеза принимается (считаем, что зависимости нет), если же t Р ³ t a n - гипотеза опровергается, то есть считается, что зависимость действительно имеет место. t a n берется по таблице t -критерия Стьюдента, причем k - количество учитываемых факторов (в нашем примере 3), число степеней свободы n = n – 3. Другие частные коэффициенты корреляции проверяют аналогично (в формулу вместо r XY (Z) подставляют соответственно r XZ (Y) или r ZY (X)).

Таблица 7.5

Исходные данные

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Для оценки зависимости фактора Х от совместного действия нескольких факторов (здесь факторы Y и Z), вычисляют значения простых парных коэффициентов корреляции и, используя их, вычисляют множественный коэффициент корреляции r X (YZ) :

Ö r 2 XY + r 2 XZ – 2r XY ´ r XZ ´ r YZ

r X (YZ) = .

Ö 1 – r 2 YZ

7.2.7. Коэффициент ассоциации. Нередко требуется количественно оценить зависимость между качественными признаками, т.е. такими признаками, которые нельзя представить (охарактеризовать) количественно, которые неизмеримы . Например, стоит задача выяснить, существует ли зависимость между спортивной специализацией занимающихся и такими личностными свойствами, как интравертность (направленность личности на явления собственного субъективного мира) и экстравертность (направленность личности на мир внешних объектов). Условные обозначения представим в табл. 7.6.

Таблица 7.6.

X (лет) Y (раз) Z (раз) X (лет) Y (раз) Z (раз)
Признак 1 Признак 2 Интравертность Экстравертность
Спортивные игры а b
Гимнастика с d

Очевидно, что числами, имеющимися в нашем распоряжении, здесь могут быть только частоты распределений. В таком случае вычисляют коэффициент ассоциации (другое название «коэффициент сопряженности »). Рассмотрим простейший случай: связь между двумя парами признаков, при этом вычисленный коэффициент сопряженности называют тетрахорическим (см. табл.).

Таблица 7.7.

а =20 b = 15 a + b = 35
с =15 d = 5 c + d = 20
a + c = 35 b + d = 20 n = 55

Вычисления производим по формуле:

ad – bc 100 – 225 –123

Вычисление коэффициентов ассоциации (коэффициентов сопряжения) при большем количестве признаков связано с расчетами по аналогичной матрице соответствующего порядка.

Коэффициент корреляции формула

В процессе хозяйственной деятельности человека постепенно сформировался целый класс задач по выявлению различных статистических закономерностей.

Требовалось оценивать степень детерминированности одних процессов другими, требовалось устанавливать тесноту взимозависимости между разными процессами, переменными.
Корреляция – это взаимосвязь переменных друг от друга.

Для оценки тесноты зависимости был введён коэффициент корреляции.

Физический смысл коэффициента корреляции

Чёткий физический смысл коэффициент корреляции имеет, если статистические параметры независимых переменных подчиняются нормальному распределению, графически такое распределение представляет кривую Гаусса. А зависимость линейна.

Коэффициент корреляции показывает, насколько один процесс детерминирован другим. Т.е. при изменении одного процесс как часто изменяется и зависимый процесс. Совсем не изменяется – нет зависимости, изменяется сразу каждый раз – полная зависимость.

Коэффициент корреляции может принимать значения в диапазоне [-1:1]

Нулевое значение коэффициента означает, что взаимосвязи между рассматриваемыми переменными нет.
Крайние значения диапазона означают полную зависимость между переменными.

Если значение коэффициента положительное, то зависимость прямая.

При отрицательном коэффициенте – обратная. Т.е. в первом случае при изменении аргумента функция пропорционально изменяется, во втором случае – обратно пропорционально.
При нахождении значения коэффициента корреляции в середине диапазона, т.е. от 0 до 1, либо от -1 до 0, говорят о неполной функциональной зависимости.
Чем ближе значение коэффициента к крайним показателям, тем большая взаимосвязь между переменными или случайными величинами. Чем ближе значение к 0, тем меньшая взаимозависимость.
Обычно коэффициент корреляции принимает промежуточные значения.

Коэффициент корреляции является безмерной величиной

Применяют коэффициент корреляции в статистике, в корреляционном анализе, для проверки статистических гипотез.

Выдвигая некоторую статистическую гипотезу зависимости одной случайной величины от другой – вычисляют коэффициент корреляции. По нему возможно вынести суждение — имеется ли взаимосвязь между величинами и насколько она плотная.

Дело в том, что не всегда можно увидеть взаимосвязь. Зачастую величины не связаны напрямую друг с другом, а зависят от многих факторов. Однако может оказаться, что через множество опосредованных связей случайные величины оказываются взаимозависимы. Конечно, это может не означать их непосредственную связь, так, к примеру, при исчезновении посредника может исчезнуть и зависимость.

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

До сих пор при анализе результатов нашего опыта по изучению действия марихуаны мы сознательно игнорировали такой показатель, как время реакции. Между тем было бы интересно проверить, существует ли связь между эффективностью реакций и их быстротой. Это позволило бы, например, утверждать, что чем человек медлительнее, тем точнее и эффективнее будут его действия и наоборот.

С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве - Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (r s ), который применяется к порядковым данным, т. е. является непараметрическим. Однако разберемся сначала в том, что такое коэффициент корреляции.

Коэффициент корреляции

Коэффициент корреляции - это величина, которая может варьировать в пределах от -1 до 1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:

Переменная

В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю:

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции. Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. n -2). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными. Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных ( = п - 2 = 6) при вычислении r (табл. В.4) и 7 пар данных ( = п - 2 = 5) при вычислении r s (табл. 5 в дополнении Б. 5).

Коэффициент Браве – Пирсона

Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):

где XY - сумма произведений данных из каждой пары;

n - число пар;

- средняя для данных переменной X ;

Средняя для данных переменной Y ;

S Х - x ;

s Y - стандартное отклонение для распределения у.

Теперь мы можем использовать этот коэффициент для того, чтобы установить, существует ли связь между временем реакции испытуемых и эффективностью их действий. Возьмем, например, фоновый уровень контрольной группы.

n = 15  15,8  13,4 = 3175,8;

(n 1)S x S y = 14  3,07  2,29 = 98,42;

r =

Отрицательное значение коэффициента корреляции может означать, что чем больше время реакции, тем ниже эффективность. Однако величина его слишком мала для того, чтобы можно было говорить о достоверной связи между этим двумя переменными.

nXY= ………

(n - 1)S X S Y = ……

Какой вывод можно сделать из этих результатов? Если вы считаете, что между переменными есть связь, то какова она - прямая или обратная? Достоверна ли она [см. табл. 4 (в дополнении Б. 5) с критическими значениями r ]?

Коэффициент корреляции рангов Спирмена r s

Этот коэффициент рассчитывать проще, однако результаты получаются менее точными, чем при использовании r. Это связано с тем, что при вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.

Дело в том, что при использовании коэффициента корреляции рангов Спирмена (r s ) проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми (например, будут ли одинаково «ранжироваться» студенты при прохождении ими как психологии, так и математики, или даже при двух разных преподавателях психологии?). Если коэффициент близок к + 1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.

Коэффициент r s вычисляют по формуле

где d- разность между рангами сопряженных значений признаков (независимо от ее знака), а n -число пар.

Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент r (в этих случаях бывает необходимо превратить количественные данные в порядковые).

Поскольку именно так обстоит дело с распределением значений эффективности и времени реакции в экспериментальной группе после воздействия, можно повторить расчеты, которые вы уже проделали для этой группы, только теперь не для коэффициента r , а для показателя r s . Это позволит посмотреть, насколько различаются эти два показателя*.

* Следует помнить, что

1) для числа попаданий 1-й ранг соответствует самой высокой, а 15-й-самой низкой результативности, тогда как для времени реакции 1-й ранг соответствует самому короткому времени, а 15-й-самому долгому;

2) данным ex aequo придается средний ранг.

Таким образом, как и в случае коэффициента r, получен положительный, хотя и недостоверный, результат. Какой же из двух результатов правдоподобнее: r = -0,48 или r s = +0,24? Такой вопрос может встать лишь в том случае, если результаты достоверны.

Хотелось бы еще раз подчеркнуть, что сущность этих двух коэффициентов несколько различна. Отрицательный коэффициент r указывает на то, что эффективность чаще всего тем выше, чем время реакции меньше, тогда как при вычислении коэффициента r s требовалось проверить, всегда ли более быстрые испытуемые реагируют более точно, а более медленные - менее точно.

Поскольку в экспериментальной группе после воздействия был получен коэффициент r s , равный 0,24, подобная тенденция здесь, очевидно, не прослеживается. Попробуйте самостоятельно разобраться в данных для контрольной группы после воздействия, зная, что d 2 = 122,5:

; достоверно ли?

Каков ваш вывод?………………………………… ……………………………………………………………

…………………………………………………………………………………………………………………….

Итак, мы рассмотрели различные параметрические и непараметрические статистические методы, используемые в психологии. Наш обзор был весьма поверхностным, и главная задача его заключалась в том, чтобы читатель понял, что статистика не так страшна, как кажется, и требует в основном здравого смысла. Напоминаем, что данные «опыта», с которыми мы здесь имели дело, - вымышленные и не могут служить основанием для каких-либо выводов. Впрочем, подобный эксперимент стоило бы действительно провести. Поскольку для этого опыта была выбрана сугубо классическая методика, такой же статистический анализ можно было бы использовать во множестве различных экспериментов. В любом случае нам кажется, что мы наметили какие-то главные направления, которые могут оказаться полезны тем, кто не знает, с чего начать статистический анализ полученных результатов.

Существуют три главных раздела статистики: описательная статистика, индуктивная статистика и корреляционный анализ.

Транскрипт

1 Иткина А.Я. Коэффициенты корреляции и специфика их применения Основное назначение корреляционного анализа выявление связи между двумя или более изучаемыми переменными. Чаще всего анализируется совместное согласованное изменение двух исследуемых показателей, являющихся случайными величинами. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой. По форме корреляционная связь может быть линейной или нелинейной. По направлению положительной или отрицательной. По силе тесной, слабой или отсутствовать. Корреляционный анализ возможен как на основе графического представления исходных данных, так и с помощью вычисления коэффициента корреляции и проверки его статистической значимости. Обычно одно исследование дополняет другое. В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r-пирсона, r-спирмена и τ-кендалла. В зависимости от решаемой задачи и от вида исходных данных стоит отдавать предпочтение одному из этих коэффициентов. Общим для них является то, что все упомянутые коэффициенты применяются для изучения взаимосвязи двух переменных, измеренных на одной и той же выборке. Они меняются в интервале от -1 до +1 и их знак показывает направление связи. Попробуем теперь разобраться в их различиях. Коэффициент корреляции Пирсона (Karl Pearson, английский математик, статистик, биолог и философ) применим, если обе переменные измерены в метрической (интервальной или абсолютной) шкале. Ограничением при использовании коэффициента корреляции Пирсона является отличие распределения хотя бы одной из переменных от нормального. Особенно сильно r- Пирсона реагирует на наличие выбросов. Для представленного на Рис. 1 облака точек r-пирсона равен,98, если учитывать только синие точки и,27, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Поскольку коэффициент r-пирсона есть мера 1

2 Коэффициенты корреляции и специфика их применения линейной связи, он неприменим для анализа нелинейных связей. Равенство r-пирсона означает, что линейная связь между переменными отсутствует r xy Рис. 1. Облако точек 1. Значение выборочного (x x)(y y) (x x) (y y) 2 2 r-пирсона может быть вычислено по формуле:. Равенство r-пирсона 1 говорит о функциональной линейной зависимости между изучаемыми переменными. Важным свойством r- Пирсона является нечувствительность к линейным преобразованиям переменных. значит Пусть kx b, тогда r y n n n n (kx b) kx b k x n b k x b, а n n n (kx b (k x b))(y y) (k(x x))(y y) (kx b (k x b)) (y y) (k (x x)) (y y) k (x x)(y y) k (x x)(y y) k r k (x x) (y y) k (x x) (y y) k положительном k коэффициенты корреляции совпадут, а при отрицательном ry xy, т.е. при r. xy Значимость r-пирсона, т.е. отличие его от, можно проверить с помощью статистики Стьюдента t r n r 2

3 Иткина А.Я. Гипотеза H:, rxy альтернативная H: 1 rxy. Соответственно, если t t n нулевая гипотеза отвергается в пользу альтернативной. Смысл (крит 2 ; 2) тестирования нулевой гипотезы, при условии репрезентативности имеющихся выборок, заключается в проверке предположения о случайности корреляционной связи между переменными, т.е. о независимости случайных величин (если связь линейна). Теория и практика Сложение 1 баррелей нефти и 1 км трубопроводов бессмысленно, но технически возможно (1+1=2). Вычисление коэффициента корреляции Пирсона для порядковых переменных, для переменных, имеющих произвольное распределение и даже для номинативных переменных технически возможно и даже имеет некоторый смысл. Итак, рассчитанный по формуле коэффициент корреляции является выборочной оценкой теоретической корреляции двух случайных величин r xy cov(xy ;) D(x) D(y). Для случайной величины, имеющей двумерное нормальное распределение, выборочный коэффициент корреляции при условии, что теоретический равен, имеет распределение Стьюдента с (n 2) степенями свободы. Именно на этом факте основана проверка гипотезы о равенстве коэффициента корреляции. Расчет коэффициента корреляции Пирсона в случаях нарушения условий его использования это попытка установить факт наличия или отсутствия связи между величинами. К сожалению в этих случаях распределение r-пирсона не известно. Поэтому выводы на основе такого анализа не надежны. Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной по какому-либо признаку совокупности имеющихся данных. Например для выборки 3, 9, 26, -4, 11, 5, ранжированной по возрастанию рангами будут числа от 1 до 7: 3, 5, 7, 1, 6, 2, 4. Трудности в назначении рангов возникают, если среди элементов выборки встречаются совпадающие. Набор одинаковых наблюдений называют связкой, а количество наблюдений в одной связке ее размером. Связанным или средним рангом называется число, равное среднему арифметическому тех рангов, которые были бы у 3

4 Коэффициенты корреляции и специфика их применения чисел в связке, если бы они различались. Например для выборки 6, 15, 12, 6, 1, 15, 9, 15 соответствующие ранги будут 1 1 2, 7, 5, 1 1 2, 4, 7, 3, 7. Коэффициент корреляции Спирмена (Charles Edward Spearman, английский психолог, статистик) применим, если обе переменные измерены в количественной (метрической или порядковой) шкале. Отсутствие ограничений на вид распределения исходных данных (переменных) вызвано тем, что это ранговый коэффициент корреляции. Спирмена n 6 (k t) 1 r 1 3 n n 2 Коэффициент корреляции Спирмена проигрывает r-пирсона только в меньшей чувствительности к связи в случаях несущественного отклонения распределения переменных от нормального. Идея r-спирмена в том, что обе переменные ранжируются (обозначим ранги k и t). И вычисляются разности между рангами для одного и того же наблюдения. Если для всех наблюдений разности близки к, значит рост одной переменной почти всегда сопровождается увеличением другой. По формуле видно, что в этом случае r-спирмена будет близок к 1. Для ручного подсчета удобна формула r-, которую можно использовать при отсутствии связанных рангов или небольшом (<1% наблюдений) их количестве. Ту же самую величину r-спирмена, более того без ограничения на связанные ранги, можно получить применив формулу r-пирсона к ранжированным переменным. Значимость коэффициента корреляции Спирмена проверяется по тем же формулам, что и значимость r-пирсона для n 3. Для выборок небольшого размера лучше пользоваться таблицами критических значений. Коэффициент корреляции Кендалла (Maurce George Kendall, английский статистик) применим, если обе переменные измерены в количественной 4

5 Иткина А.Я. (метрической или порядковой) шкале. Он также как и коэффициент корреляции Спирмена является ранговым. Основная идея, заложенная в τ-кендалла, заключается в изучении направления связи между переменными путем попарных сравнений между собой наблюдений. Ситуацию, при которой изменение Х для двух наблюдений сонаправлено с изменением Y для тех же наблюдений, назовем совпадением. А разнонаправленное изменение назовем инверсией. Например, если ранги по Х - 2, 1, 3, 4, а по Y - 3, 1, 2, 4, то изменение рангов при переходе от 1-го наблюдения ко второму сонаправлено (уменьшение), а при переходе от 1-го к третьему разнонаправлено (по Х рост, а по Y падение). Таких попарных сравнений нужно выполнить N(N 1), что весьма 2 трудоемко. Поэтому для ручного ета τ-кендалла принято упорядочивать наблюдения по одной из переменных, например по Х. τ-кендалла это разность относительных частот совпадений и инверсий для всех наблюдений: P Q, в преобразованном виде N(N 1) / 2 4Q 4P 1 1, N (N 1) N (N 1) где P число совпадений, Q число инверсий, P Q N (N 1) / 2. В Таблица 1 приведен пример подсчета числа совпадений и инверсий. Столбцы с 6 по 9 приведены для лучшего понимания того, что направление сортировки не влияет на величину τ- Кендалла. Сравниваем каждый ранг в столбце 3 со значениями, расположенными ниже его. Поскольку столбец 2 упорядочен по возрастанию, совпадениями будут все случаи, когда наблюдение с меньшим рангом выше по столбцу, чем наблюдение с большим рангом. При заполнении столбца 8 совпадением окажется значение ранга большее (столбец 7), чем у наблюдения ниже по столбцу. Например ранг 4 больше, чем 2, 3 и 1, т.е. всего 3 совпадения. 5

6 Коэффициенты корреляции и специфика их применения Таблица 1. Наблюдения Ранги Совпадения Инверсии Ранги Совпадения Инверсии Х Y P Q Х Y P Q (6 1) / 2 15 Σ = 11 Σ = 4 Σ = 11 Σ = 4 Это означает, что совпадения встречаются почти на 47 процентов чаще, чем инверсии. Другими словами вероятность совпадения, а инверсии Значимость коэффициент корреляции Кендалла проверяется по таблице стандартного нормального распределения, для чего рассчитывается статистика PQ 1 N (N 1) (2N 5) /18 и ее величина сравнивается с табличным значением. Либо находится величина вероятности, соответствующая, и она сравнивается с уровнем значимости. При этом надо помнить, что нулевой гипотезе об отсутствии корреляционной связи соответствует двусторонняя альтернатива о ее наличии. Для представленного выше примера (6 1) (2 6 5) / ,13, табл (,25) 1,96, т.е. на уровне значимости 3 17 /18 28,3 α=,5 не обнаружено корреляционной связи между переменными Х и Y. Или через вероятность p () 2, поскольку альтернатива двусторонняя).,129*2 =,258 >,5, получаем тот же вывод (умножаем на 6

7 Иткина А.Я. Основная идея ранговых коэффициентов корреляции заключается в том, что возможное количество перестановок n чисел-рангов равно n! и любая перестановка равновероятна. Поэтому вероятность случайного совпадения рангов у двух выборок ничтожно мала. При верности H распределение коэффициентов r-спирмена и τ- Кендалла симметрично и концентрируется около нуля. Для небольших выборок имеются таблицы критических значений статистик Спирмена и Кендалла, а при увеличении n их распределение приближается к стандартному нормальному. Если же H неверна, то последовательность рангов k каким-то образом "влияет" на последовательность t. Например, если ранги полностью совпадают, то это означает, что рост одной переменной однозначно связан с ростом другой переменной. Именно поэтому особенностью ранговых коэффициентов является выявление не только линейной связи между переменными, но и любого вида монотонной связи. Для представленного на Рис. 2 облака точек r-спирмена/τ-кендалла равны 1, если учитывать только синие точки и,75/,76, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Возвращаясь к Рис. 1, мы видим, что выброс привел к уменьшению r-пирсона на,98-,27=,71; r-спирмена на,99-,53=,46; τ-кендалла на,95-,64=,31. Т.е. плюсом ранговых коэффициентов корреляции является их меньшая чувствительность к выбросам, чем у r-пирсона Рис. 2. Облако точек 2. Поскольку коэффициенты r-спирмена и τ-кендалла показывают меру монотонной связи, они неприменимы для анализа связей, меняющих свое направление. Равенство r-спирмена или τ-кендалла означает, что монотонная связь между переменными отсутствует. 7

8 Коэффициенты корреляции и специфика их применения Пример 1. Эксперты оценивали риски освоения площади N месторождения М. Риски упорядочены в порядке убывания (от 1 максимального до 8 минимального). Согласованы ли оценки экспертов? Риски Оценки эксперта 1 Оценки эксперта 2 P (совпадения) Таблица 2. Q (инверсии) Геологический Технологический Технический Кредитный Спекулятивный Политический 6 7 Падение спроса 7 7 Природный форс-мажор 8 7 Σ = 2 Σ = Расчет совпадений и инверсий приведен в Таблица 2, вычислим поправочные коэффициенты: K x 3 (31) 3 (31) 3 (3 1) N(N 1) 3; Ky 6; 28; Тогда коэффициент корреляции Кендалла Коэффициент корреляции Спирмена для экспертных оценок равен,923, τ- Кендалла,853. Несмотря на отсутствие инверсий, коэффициенты корреляции меньше 1, поскольку наличие связок уменьшает изменчивость данных и соответственно возможности оценки корреляционной связи. Выше был приведен ет для проверки значимости τ-кендалла, однако статистика только асимптотически имеет нормальное распределение (n 3), а для маленькой выборки (n = 8) корректнее пользоваться таблицей критических точек. H: корреляционная связь отсутствует. При альтернативе: корреляция положительна, критические значения r-спирмена,643; τ-кендалла,571. Т.е. на уровне 5% оба коэффициента положительные. При альтернативе: корреляция 8

9 Иткина А.Я. ненулевая, критические значения r-спирмена,738; τ-кендалла,643. Т.е. на уровне 5% оба коэффициента ненулевые. Проверка гипотез о различии корреляций 1 Рассмотрим два примера, в которых будет проверена гипотеза H о равенстве коэффициентов корреляции в генеральных совокупностях. Пример 2. Изучался вопрос о влиянии антикоррозийного покрытия S на частоту аварий на трубопроводах. В течение полугода на 5 линейных участках трубопровода без покрытия и на 36 участках с покрытием фиксировалось количество аварий и толщина стенки трубы в месте аварии. Корреляция Пирсона для первой выборки составила r1,59, для второй r2,42. Можно ли предположить, что связь между толщиной стенки и количеством аварий исчезает при использовании антикоррозийного покрытия? В данном примере два анализируемых коэффициента корреляции рассчитаны по независимым выборкам. Процедура проверки H для независимых выборок состоит из следующих шагов. 1. Z-преобразование Фишера исходных коэффициентов корреляции (функция ФИШЕР() в Excel): и r ln 2 1 r, для заданных в примере коэффициентов 1 1,59 1 ln,68 2 1,59 1 1,42 ln,42 2. Расчет статистики критерия по формуле:,68, N 3 N ,1. 3. Сравнение с крит. По таблице стандартных нормальных вероятностей находим крит 1,96 для уровня значимости 5% и получаем крит. 1 Методы и идеи этой части заимствованы из учебного пособия: Наследов А.Д. Математические методы психологического исследования. СПб.: Речь, 212. С

10 Коэффициенты корреляции и специфика их применения 4. Вывод: коэффициенты корреляции статистически не отличимы, а следовательно антикоррозийное покрытие не повлияло на связь аварий с толщиной стенки трубы. Пример 3. В Германии изучалась связь между количеством солнечных часов в неделю (x), выработкой электричества с фотоэлементов (y), а также выработкой электричества с ветрогенераторных установок (). Исследование проводилось в светлое время суток. Важно было понять часто ли совпадает увеличение и падение электрогенерации из нескольких ВИЭ, а также изучить степень предсказуемости ветрогенерации, поскольку метеостанции лучше предсказывают солнечные дни, нежели силу ветра. Была собрана информация за 39 недель и вычислены коэффициенты парной корреляции r,71; r,4; r,29. xy x y Процедура проверки гипотезы о совпадении корреляционной связи между зависимыми выборками, какими в данном случае являются количество солнечных часов и электрогенерация из двух разных источников в эти же часы состоит из ета Z-критерия и вывода на основе сравнения с крит. Использование алгоритма тестирования таких гипотез для независимых выборок может привести к ошибкам за счет меньшей мощности такой проверки. Формула для (r r) N xy x (1 rxy) (1 rx) 2 ry (2 ry rxy rx)(1 rxy rx ry). Для имеющихся данных получилось равным 2,13, что больше, чем 1,96. Соответственно мы делаем вывод о том, что на уровне значимости 5% крит гипотезу следует отвергнуть. При этом, если выбрать уровень значимости равный 1%, основания для отвержения гипотезы отсутствовали бы. вывода К сожалению в случае, когда исходные данные не позволяют сделать уверенного оказывается неустойчивым к небольшому изменению исходных данных. При проверке отказалось, что увеличение уменьшению r x всего на четыре сотые приводит к до 1,9. Т.е. только при заметном отклонении от крит можно сделать уверенный вывод о совпадении/несовпадении коэффициентов корреляции в генеральной совокупности данных. 1

11 Иткина А.Я. Частный коэффициент корреляций Поскольку коэффициент корреляции отражает лишь математически наличие/отсутствие связи между переменными, возникает вопрос об истинной и ложной корреляции. Т.е. действительно ли связь между переменными носит осмысленный характер или она вызвана лишь влиянием выбросов или третьей переменной. В первом случае ошибочных выводов по коэффициенту корреляции можно избежать, рассмотрев облако точек для переменных. Второй случай более сложный, поскольку требует догадаться, что могло вызвать ложную корреляцию. Чтобы проиллюстрировать данную проблему рассмотрим данные по связи энергопотребления на душу населения, квт*час на чел./год (х) в нескольких странах с размером территории этих стран, кв. км (у). По выборке из 44 стран был рассчитан коэффициент корреляции Пирсона, который оказался равен,79. На Рис. 3 видно, что облако распадается на отдельные части, что вызывает сомнения в правильности применения коэффициента корреляции. Внимательно изучив список стран, вошедших в выборку, было сделано предположение о необходимости разделить их по ВВП на душу населения, $ США () Рис. 3. Облако точек: по оси х площадь стран; по у энергопотребление. Частный коэффициент корреляции показывает, какова была бы связь между двумя переменными, при условии, что влияние другой (других) переменных исключается. Частные коэффициенты могут быть разных порядков. Порядок коэффициента определяется числом факторов, влияние которых исключается. Здесь мы 11

12 Коэффициенты корреляции и специфика их применения рассматриваем только частный коэффициент корреляции первого порядка. После введения дополнительной переменной получены rx,93 и ry,76. r xy/ rxy rx ry,79,93,76, (1 rx)(1 ry) (1,93)(1,76) Проверим статистическую значимость частного коэффициента корреляции. Число степеней свободы уменьшилось до n 3. t rxy / n3,39. 1r 1, xy/ Поскольку t t (,25;41) 2,2 гипотезу об отсутствии корреляционной крит связи между электропотреблением и площадью территории страны на уровне значимости 5% необходимо отвергнуть. Однако эта связь не столь существенна, как казалось вначале. 12

13 Иткина А.Я. ПРИЛОЖЕНИЕ 1 Таблица критических значений рангового коэффициента корреляции Спирмена 2 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 2 С сайта Йоркского университета (Великобритания) 13

14 Коэффициенты корреляции и специфика их применения ПРИЛОЖЕНИЕ 2 Таблица критических значений рангового коэффициента корреляции Кендалла 3 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 3 С сайта Йоркского университета (Великобритания) 14


ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 2 1. Предположение, проверяемое при помощи научных методов а) научная гипотеза; б) статистическая гипотеза; в) гипотеза исследования; г) задача исследования. 2. Проверяемое

Куда мне отсюда идти? А куда ты хочешь попасть? А мне все равно, только бы попасть куда-нибудь. Тогда все равно куда идти. Куда-нибудь ты обязательно попадешь. Льюис Кэрролл Выбор статистического критерия

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Линейная корреляция Как показано выше, облако точек можно описать двумя линиями регрессии регрессией X на Y и Y на X. Чем меньше угол между этими прямыми, тем сильнее зависимость

3 Методы статистической обработки данных 3. Анализ таблиц сопряженности. Для исследования взаимосвязи пары качественных признаков между собой применяется анализ таблиц сопряженности. Таблица сопряженности

Лекция 0.3. Коэффициент корреляции В эконометрическом исследовании вопрос о наличии или отсутствии зависимости между анализируемыми переменными решается с помощью методов корреляционного анализа. Только

7. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Линейная регрессия Метод наименьших квадратов () Линейная корреляция () () 1 Практическое занятие 7 КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Для решения практических

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ

Эконометрическое моделирование Лабораторная работа Корреляционный анализ Оглавление Понятие корреляционного и регрессионного анализа... 3 Парный корреляционный анализ. Коэффициент корреляции... 4 Задание

Корреляция Материал из Википедии свободной энциклопедии Корреля ция статистическая взаимосвязь двух или нескольких случайных величин (либо величин которые можно с некоторой допустимой степенью точности

Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования «МАТИ» Российский государственный технологический университет им. К.Э. Циолковского

Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург,

Лекция Корреляционный анализ. Описательные статистики. Коэффициент корреляции определяется: xy Корреляционный анализ M mx Y m Коэффициент показывает меру линейной зависимости между x и y, где x и y среднеквадратичные

УДК...0 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИЗМЕРЕНИЙ РЕЖИМНЫХ ПАРАМЕТРОВ В ЗАДАЧЕ УПРАВЛЕНИЯ ЭЛЕКТРИЧЕСКОЙ СИСТЕМЫ Павлюков В.С., Павлюков С.В. Южно-Уральский государственный университет, г. Челябинск, Россия Основные

СТАТИСТИЧЕСКИЙ ВЫВОД 1. Введение в проблему статистического вывода 2. Статистические гипотезы 3. Статистический критерий 4. Статистическая значимость 5. Классификация статистических критериев 6. Содержательная

Методические указания Корреляция Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида М (Y/ x)=f(x). Регрессией X на Y

Лекция 6. Методы измерения тесноты парной корреляционной связи Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены признаки,

Лекция 7. Непараметрические критерии независимости. Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 1 / 31 Cодержание

Методические указания для выполнения лабораторной работы Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы. Методические указания Регрессией Y на X или условным математическим

Проверка статистических гипотез 1 Основные понятия. Нулевая гипотеза (H 0) утверждение о параметре генеральной совокупности (параметрах генеральных совокупностей) или распределении, которое необходимо

Лекция 8. Непараметрические критерии однородности и независимости Буре В.М., Грауэр Л.В. ШАД Санкт-Петербург, 2013 Буре В.М., Грауэр Л.В. (ШАД) Непараметрические критерии... Санкт-Петербург, 2013 1 / 39

7 Корреляционный и регрессионный анализ. Корреляционный анализ статистических данных.. Регрессионный анализ статистических данных. Статистические связи между переменными можно изучать методами дисперсионного,

Лекция 7 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ЦЕЛЬ ЛЕКЦИИ: определить понятие статистических гипотез и правила их проверки; провести проверку гипотез о равенстве средних значений и дисперсий нормально распределенной

Поволжский государственный технологический университет Кафедра РТиМБС Методические указания к выполнению лабораторной работы 4 по дисциплине «Автоматизация обработки экспериментальных данных» Анализ сходства

МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ЗЕМЛЕУСТРОЙСТВЕ Карпиченко Александр Александрович доцент кафедры почвоведения и земельных информационных систем Литература elib.bsu.by Математические методы в землеустройстве [Электронный

11 Тесты по математической статистике Тест 1 P 1 Для любого x имеет место соотношение F x правую часть Заполните Дана выборка (3,1,3,1,4, 5) Составьте вариационный ряд 3 Что оценивают x и выборочная

Лекция 7 ЭКОНОМЕТРИКА 7 Анализ качества эмпирического уравнения множественной линейной регрессии Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа Построенное

МИНОБРНАУКИ РОССИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)

Проверка статистической гипотезы о математическом ожидании нормального распределения при известной дисперсии. Пусть имеется нормально распределенная случайная величина N, определенная на множестве объектов

3.4. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ВЫБОРОЧНЫХ ЗНАЧЕНИЙ ПРОГНОЗНЫХ МОДЕЛЕЙ До сих пор мы рассматривали способы построения прогнозных моделей стационарных процессов, не учитывая одной весьма важной особенности.

Теория вероятностей и медицинская статистика АНАЛИЗ ЗАВИСИМОСТЕЙ Лекция 7 Кафедра медицинской информатики РУДН Содержание лекции 1. Шкалы измерений 2. Обзор статистических методов анализа 3. Корреляционный

Иткина А.Я. Эконометрика на практике Введение. Исследование в любой области знания предполагает получение результатов обычно в виде чисел. Однако просто собрать данные недостаточно. Даже объективно и корректно

Лекция 10. Методы измерения тесноты парной корреляционной связи. Часть 1 Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

Содержание задачи: Исследовать влияние денежных доходов населения на оборот розничной торговли - Денежные доходы населения (в среднем на душу населения в месяц), руб. y - Оборот розничной торговли, млрд.

Лекция 5 ЭКОНОМЕТРИКА 5 Проверка качества уравнения регрессии Предпосылки метода наименьших квадратов Рассмотрим модель парной линейной регрессии X 5 Пусть на основе выборки из n наблюдений оценивается

МВДубатовская Теория вероятностей и математическая статистика Лекция 4 Регрессионный анализ Функциональная статистическая и корреляционная зависимости Во многих прикладных (в том числе экономических) задачах

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ПСИХОЛОГИИ И СОЦИАЛЬНОЙ РАБОТЫ Факультет прикладной психологии Очно-заочная форма обучения САМОСТОЯТЕЛЬНАЯ РАБОТА По дисциплине: «МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»

Медицинская статистика Специальность «Лечебное дело» Проверка статистических гипотез Критерии согласия Определение статистической гипотезы Статистическая гипотеза - предположение о виде распределения или

Проверка статистических гипотез 1. Статистические гипотезы; 2. Критерии проверки гипотез; 3. Проверка параметрических гипотез; 4. Критерий Пирсона Завершить показ Статистические гипотезы. Статистические

Информационные технологии в физической культуре и спорте Процессы преобразования информации связаны с информационными технологиями. Технология в переводе с греческого - искусство, умение, а это не что

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ СТРОИТЕЛЬНЫЙ

Домашнее задание. Обработка результатов наблюдений двухмерного случайного вектора.1. Содержание и порядок выполнения работы Дана парная выборка (x i ; y i) объема 50 из двумерного нормально распределенного

Тема 4. Анализ матрицы корреляции и его место в регрессионном анализе 4.1. Коэффициент корреляции Коэффициент парной корреляции (Пирсона) показывает меру линейной связи между переменными он принимает значения

Корреляционный и регрессионный анализ. План. 1. Понятие корреляции. Функциональная и корреляционная зависимость. Графики рассеяния. 2. Коэффициент корреляции и его свойства. Коэффициент детерминации. 3.

65 4 ДИСПЕРСИОННЫЙ АНАЛИЗ Дисперсионный анализ разработан для сельскохозяйственных и биологических исследований Р.А. Фишером на основе открытого им закона распределения отношения средних квадратов (дисперсий)

Лукьянова Е.А. Медицинская статистика Специальность «Лечебное дело» 3 Проверка статистических гипотез Критерии согласия Критерий Стьюдента для связанных выборок Критерий Стьюдента для несвязанных выборок

ИЗУЧЕНИЕ СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ РАДИОАКТИВНОГО РАСПАДА Лабораторная работа 8 Цель работы: 1. Подтверждение случайного, статистического характера процессов радиоактивного распада ядер.. Ознакомление

55 3 РЕГРЕССИОННЫЙ АНАЛИЗ 3 Постановка задачи регрессионного анализа Экономические показатели функционирования предприятия (отрасли хозяйства) как правило представляются таблицами статистических данных:

РЕГРЕССИОННЫЙ АНАЛИЗ Пусть у нас есть серии значений двух параметров. Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами.

МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Серьезной проблемой при построении моделей множественной регрессии на основе метода наименьших квадратов (МНК) является мультиколлинеарность Мультиколлинеарность

Федеральное агентство воздушного транспорта Федеральное государственное образовательное учреждение высшего профессионального образования МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ГРАЖДАНСКОЙ АВИАЦИИ

Задача.Имеются следующие данные: Вариант 8 Номер семьи 3 4 5 6 7 8 9 0 Число совместно проживающих членов семьи, 3 3 4 4 4 5 6 7 7 чел. Годовое потребление электроэнергии, тыс. кв.- час 5 8 0 4 6 9 3 8.

Практическая работа Обработка и анализ результатов коллективных решений Цель работы определить коллективную оценку объектов (факторов и пр с точки зрения их воздействия на некоторую цель или показатель

Квантили Выборочная квантиль x p порядка p (0 < p < 1) определяется как элемент вариационного ряда выборки x (1), x () с номером [p]+1, где [a] целая часть числа а В статистической практике используется

ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 1 1. Множество объектов, в отношении которого формулируется исследовательская гипотеза а) случайная выборка; б) генеральная совокупность; в) зависимая выборка; г) независимая

3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 3 Основные понятия статистической проверки гипотезы Статистическая проверка гипотез тесно связана с теорией оценивания параметров распределений В экономике, технике, естествознании,

Лекция 11. Методы измерения тесноты парной корреляционной связи. Часть Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРОМЫШЛЕННЫХ

Поделиться: