<<
>>

КОРРЕЛЯЦИЯ

Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания.

Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.

Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой г. Коэффициент корреляции мо-

жет принимать значения от -1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина — тесноту связи. Коэффициент, равный -1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.

На рис. 8.10 приведены примеры зависимостей и соответствующие им значения г. Мы рассмотрим два коэффициента корреляции.

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регресси

онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.

Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна—и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.

О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки — это обычные числовые данные, такие, как рост, вес, температура.

Значения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. Например, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И количественные, и порядковые признаки можно расположить по порядку — на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффициент ранговой корреляции Спирмена. С другими непараметрическими критериями мы познакомимся в гл. 10.

Коэффициент корреляции Пирсона

И все же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным. Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес — зависимая переменная, во втором — независимая. Линии регрессии заметно разли-

20

18'

16

14

12

10

8

6

4

2

0

8.

. Если поменять местами х и у, уравнение регрессии получится другим, а коэф- ■ корреляции останется прежним.

чаются.

Получается, что связь роста с весом одна, а веса с ростом — другая. Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка. Приводим формулу.

r Y(X - X)(Y - Y)

&(( - X ) S(y - Y )2'

где X и Y — средние значения переменных X и Y. Выражение для r «симметрично» —поменяв местами Xи Y, мы получим ту же величину. Коэффициент корреляции принимает значения от -1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление связи. При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r < 0 — об обратной (с увеличением одной переменной другая уменьшается). Вернемся к рис. 8.10. На рис. 8.10А изображена максимально сильная прямая корреляция: r = +1. На рис. 8.10Б — максимально сильная обратная корреляция: r = -1. На рис. 8.10В корреляция прямая, тоже достаточно сильная: r = 0,8. Наконец, на рис. 8.10Г какая-либо связь между признаками отсутствует: r = 0.

Возьмем пример с 10 марсианами, который мы уже рассматривали с точки зрения регрессионного анализа. Вычислим коэффициент корреляции. Исходные данные и промежуточные результаты вычислений приведены в табл. 8.3. Объем выборки n = 10, средний рост

X = £ X/n = 369/10 = 36,9 и вес Y = £ Y/n = 103,8/10 = 10,38.

Находим Щ- X)(Y- Y) = 99,9, Щ- X )2 = 224,8, £(Y - Y )2 = 51,9.

Подставим полученные значения в формулу для коэффициента корреляции:

224,8 х 51,9 ’ '

Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреляции следует считать большим, а какой незначительным, взгляни-

Таблица 8.3. Вычисление коэффициента корреляции
X Y X -X Y-Y (X -X)(Y-Y) (X -X )2 (Y-Y )2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9

те на табл. 8.4 — в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.

Связь регрессии и корреляции

Все примеры коэффициентов корреляции (табл. 8.4) мы первоначально использовали для построения линий регрессии. Действительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя.

Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии.

Таблица 8.4. Примеры корреляций
Пример Коэффициент корреляции r Объем выборки п
Рост и вес марсиан (рис. 8.7) 0,925 10
Сила сжатия кисти и мышечная масса у здоровых (рис. 8.9А) 0,938 25
Сила сжатия кисти и мышечная масса, объединенная группа (рис. 8.9Б) 0,581 50

Обозначим эту минимальную сумму квадратов S (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от ее среднего Y обозначим S^. Тогда:

S

ост

Sобщ

Величина г2 называется коэффициентом детерминации — это просто квадрат коэффициента корреляции. Коэффициент детерминации показывает силу связи, но не ее направленность.

Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то S = 0, и тем самым r = +1 или r = -1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то Soci = SofSisi Тогда r = 0.

Видно также, что коэффициент детерминации равен той доле общей дисперсии S^, которая обусловлена или, как говорят, объясняется линейной регрессией[53].

Остаточная сумма квадратов S связана с остаточной дисперсией s2y\x соотношением Socj = (п - 2) s^, а общая сумма квадратов S^ с дисперсией s2 соотношением S^ = (п - 1)s2 . В таком случае

r2 = 1 _ n _ 2 sy\x п _1 sy

Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии

six/s2y Чем эта доля меньше, тем больше (по абсолютной величине) коэффициент корреляции, и наоборот.

Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на

коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (г = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значений.

И под конец приведем соотношение коэффициента корреляции и коэффициента наклона прямой регрессии b:

где b — коэффициент наклона прямой регрессии, sx и sY — стандартные отклонения переменных.

Если не брать во внимание случай sx = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.

Статистическая значимость корреляции

Поскольку из b = 0 следует г = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической значимости корреляции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:

_ b

sb'

Здесь число степеней свободы v = n - 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоваться формулой:

t _

Число степеней свободы здесь также v = п - 2.

При внешнем несходстве двух формул для t, они тождественны. Действительно, из того, что

r 2 _ 1 - n_ 2 Sy]x_

следует

7-Y (1 - r2 R

Подставив значение sy^x в формулу для стандартной ошибки

Животный жир и рак молочной железы

В опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К. Кэррол[54] собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90. Оценим статистическую значимость корреляции.

0,90 1 - 0,902 39 - 2

Критическое значение t при числе степеней свободы v = 39 - 2 = 37 равно 3,574, то Єсть меньше полученного нами. Таким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы.

Теперь проверим, связана ли смертность с потреблением растительных жиров? Соответствующие данные приведены на рис. 8.12Б. Коэффициент корреляции равен 0,15. Тогда

1 - 0,152 39 - 2

Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима.

Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые переменные могут зависеть от какой-то третьей. В обсервацион-

Рис. 8.12. Смертность от рака молочной железы и потребление жиров на душу населения в разных странах. А. Потребление животных жиров. Б. Потребление растительных жиров. Связь смертности с потреблением животных жиров достаточно отчетлива, чего не скажешь о связи с потреблением растительных жиров.

ном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя[55]. Однако экспериментальные данные, о которых мы упомянули выше, — сильный аргумент в пользу именно причинно-следственной связи.

Вообще истолкование результатов регрессионного и корреляционного анализа зависит от того, в каком исследовании были получены данные — обсервационном или экспериментальном. Если мы обнаружили связь переменных в обсервационном исследовании, то это не значит, что одна из них влияет на другую. Возможно, их согласованные изменения — результат действия какого-то неизвестного нам фактора. В экспериментальном исследовании, произвольно меняя одну из переменных, мы можем быть уверены, что связь, если она будет выявлена, является причинной. Впрочем, осторожность не помешает и в этом случае. В самом деле, трудно менять только одну переменную. Увеличивая содержание жира в рационе, мы либо увеличиваем общую калорийность, либо снижаем содержание белков и углеводов. Кто поручится, что канцерогенное действие оказывает именно жир, а не дисбаланс питательных веществ?

<< | >>
Источник: С. Гланц. Медико-биологическая статистика. Пер. с англ. — М., Практика1998. 1998

Еще по теме КОРРЕЛЯЦИЯ:

  1. ЧУВСТВИТЕЛЬНОСТЬ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
  2. КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА
  3. Качество данных и психометрические свойства опросника
  4. Методы изучения корреляционных связей при оценке показателей здоровья и факторов окружающей среды
  5. Прогноз
  6. Влияние на репродуктивную систему
  7. Клиническая фармакология
  8. Тест Купера
  9. СРАВНЕНИЕ ДВУХ СПОСОБОВ ИЗМЕРЕНИЯ: МЕТОД БЛЭНДА—АЛТМАНА
  10. Побочные эффекты
  11. Структурные изменения сердца на разных стадиях ДН
  12. Глава 5. Основные психопатологические синдромы. АМЕНТИВНЫЙ СИНДРОМ
  13. Талассемии (мишеневидно-клеточные анемии)
  14. КАКИМ КРИТЕРИЕМ ВОСПОЛЬЗОВАТЬСЯ
  15. Психометрические свойства опросника оценки качества жизни
  16. Диагностика тахиаритмий
  17. Тест Навакки