<<
>>

ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО ВЫБОРКЕ

В реальной жизни редко удается получить данные обо всей совокупности, и исследователю приходится довольствоваться выборками. Допустим, мы располагали бы данными не о всех марсианах, а только о десяти. На рис. 8.ЗА они показаны черными кружками среди 190 своих собратьев. На рис. 8.3Б данные показаны так, как их видит исследователь, изучивший эту выборку. Что можно сказать о совокупности, основываясь на этих выборочных данных?

Похоже, что в этом случае исследователю повезло. Зависимость веса от роста в выборке выглядит примерно так же, как и в совокупности в целом.

Но ведь выборка может вводить в заблуждение. Вспомним пример с рис. 1.2. В выборке из 5 человек диурез отчетливо увеличивался с ростом дозы препарата (рис

1. 2А), тогда как на самом деле никакой зависимости не было (рис 1.2Б). Какова вероятность ошибочного заключения? Как мы скоро увидим, эта задача сводится к оценке параметров уравнения регрессии а и в по выборке.

Метод наименьших квадратов

Сейчас нам предстоит оценить параметры уравнения регрессии а и р. Обозначим их выборочные оценки соответственно а и b. Найти наилучшие оценки этих параметров — это то же самое, что провести наилучшую прямую через имеющиеся точки, поскольку у =а + Ьх — это уравнение прямой. Какую прямую считать наилучшей? Посмотрим на рис. 8.4. На нем изображены 4 прямые. Прямая I явно не годится — все точки оказались по одну сторону от нее. Прямая II немного лучше, она хотя бы пересекает область, где находятся наши точки. Однако она слишком круто устремляется вверх. Какая из прямых III и IV является лучшей, сказать трудно. Почему прямая II кажется лучше прямой I, а прямая III — лучше прямой II? Очевидно, прямая тем лучше,

Вес (у), г >
CD 00

____ 1__

О ГО _____ 1_____ 1________ £

---------- 1___

CD

____ 1___

СО ГО

о

о

о

о

о о оо •

о со* о

О #ООССО о

о рэо оао о о о оо о*о* о оо о ооо оооооооо о

ссссоссссссо о

О 00000000000

000003X00000 оо 00000000*000 0000 00 00000*00000 о о

ососсссоооо оо*

00 ОООООООО ООО оосооососоо ООО 0000 000 00 о • о оооооо о

О 00 о о о

оо о

ООО

о о

о

о

о

Б 201816-

4-

2

0 ЧН—і—і—г-т—г г і—п—і—і—і—і—і—і—і—і—і—і—і—і—i—i—i—i—i—i—і—i—i 25 30 35 40 45 50 55

Рост (X), CM

Рис. 8.3. Б. Такой эта выборка представляется исследователю, который не может наблюдать всю совокупность.

чем ближе она ко всем точкам выборки. Иными словами, лучше та прямая, относительно которой разброс точек минимален.

С оценкой разброса мы уже сталкивались в гл.

2. Там мы использовали средний квадрат отклонения от среднего. Поступим аналогичным образом. Определим расстояние по вертикали от каждой точки до прямой (рис. 8.5). Возведем полученные величины в квадрат и сложим. Возведение в квадрат потребовалось, чтобы отклонения, равные по абсолютной величине, но разные по знаку, вносили один и тот же вклад.

Сумма квадратов отклонений от прямой IV меньше, чем от прямой III. Следовательно, прямая IV лучше представляет зависимость у от х. Более того, можно доказать, что для прямой IV сумма квадратов отклонений выборочных значений зависимой переменной минимальна. Способ нахождения линии, сумма квадратов расстояний от которой до всех точек выборки минимальна, называется методом наименьших квадратов, саму линию мы будем называть прямой регрессии. Здесь мы не будем останавливаться на выводе формул[47] и сообщим сразу результат.

Напомним, что мы ищем параметры уравнения регрессии:

y = a + bx.

Тогда коэффициент сдвига

( Y )(E X2 ME X)( XY)

и коэффициент наклона

где X и Y — значения независимой и зависимой переменных у п членов выборки[48].

18

16'

14'

12

10

8

6

4

2

0

8.4

Провести прямую через десять точек можно по-разному. Прямые I и II явно не прямые III и IV выглядят лучше.

20

18

16

14

12-

lo

s

s'

4

2-

О

8.

і. Найдем расстояние по вертикали от каждой точки до прямой III (А) и IV (Б). квадратов расстояний до прямой IV меньше, чем до прямой III. Рядом с прямой їм цветом показана линия средних с рис. 8.2. Как видим, прямые достаточно

го-

18

16

14

12

10

8

6

4

2

0

•. 8.:

Р = 0,50 г/см

Таблица.
8.1. Расчет параметров уравнения регрессии bgcolor=white>343,0
Х Y X2 XY
31 7,8 961 241,8
32 8,3 1024 265,6
33 7,6 1089 250,8
34 9,1 1156 309,4
35 9,6 1225 336,0
35 9,8 1225
40 11,8 1600 472,0
41 12,1 1681 496,1
42 14,7 1764 617,4
46 13,0 2116 598,0
369 103,8 13841 3930,1

Рассчитаем параметры уравнения регрессии для нашей выборки из 10 марсиан. Вспомогательные величины для вычислений приведены в табл. 8.1. Объем выборки п = 10, ЪХ = 369, YY = 103,8, ЪХ =13841 и ЪХУ = 3930,1. Подставим эти числа в формулы для коэффициентов регрессии:

103,8 х 13841 - 369 х 3930,1 a = =-6,0

10 х 13841 - 3692

и

, 10х3930,1 -369х 103,8 л

b = 2 = 0,44.

10 х 13841 - 3692

Таким образом, прямая регрессии имеет вид: у = -6,0 + 0,44 х.

Именно это уравнение задает прямую IV.

Разброс значений вокруг прямой регрессии

Мы получили а и b — оценки коэффициентов регрессии а и р. Хорошо бы получить также оценку разброса значений вокруг прямой регрессии. При каждом значении X стандартное отклонение постоянно и равно о,. Выборочной оценкой о, служит

у\х у\х

Z[Y-(a + bX )]2

где а + bX — значение уравнения регрессии в точке X, Y- (a + bX) — расстояние от точки до прямой регрессии, X обозначает суммирование квадратов этих расстояний. Не будем объяснять, почему сумма квадратов отклонений должна быть поделена на п - 2, а не на п или п - 1. Скажем только, что причина аналогична той, по которой в оценке стандартного отклонения делитель равен п - 1.

Величина sy|x называется остаточным стандартным отклонением (соответственно s^, называется остаточной дисперсией). Связь sy|x со стандартными отклонениями sy и sX зависимой и независимой переменных определяется формулой

Для рассмотренной нами выборки sX = 5,0, sY = 2,4. Тогда

Как видим, оценка sy^ оказалась близкой к истинному значению t005 = 2,306. Выборочные значения b = 0,44 и sb = 0,068. Следовательно, доверительный интервал для в:

0,44 - 2,306 х 0,068 «выигрыш» от использования двух раздельных регрессий. Мерой выигрыша служит величина:

• По s2|х и si вычислить критерий F:

2

У|хоі

• Сравнить вычисленное значение с критическим значением

F для числа степеней свободы v = 2 и v = n + n„ - 4. Если

полученное значение больше критического, то гипотеза о совпадении линий регрессии должна быть отклонена.

Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены кружками, больные ревматоидным артритом — квадратиками. Одинакова ли зависимость у больных и здоровых?

<< | >>
Источник: С. Гланц. Медико-биологическая статистика. Пер. с англ. — М., Практика1998. 1998

Еще по теме ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО ВЫБОРКЕ:

  1. УРАВНЕНИЕ РЕГРЕССИИ
  2. ВЫБОРКИ ПРОИЗВОЛЬНОГО ОБЪЕМА
  3. СЛУЧАЙНЫЕ ВЫБОРКИ ИЗ НОРМАЛЬНО РАСПРЕДЕЛЕННОЙ СОВОКУПНОСТИ
  4. 4. Результаты настоящего исследования. Некоторые общие характеристики выборки.
  5. Параметрит, флегмона параметрія
  6. ФАРМАКОКИНЕТИЧЕСКИЕ ПАРАМЕТРЫ
  7. Влияние лечения на параметры качества жизни
  8. Прогностическое значение параметров качества жизни
  9. ПАРАМЕТРЫ, ХАРАКТЕРИЗУЮЩИЕ ДВИЖЕНИЕ КРОВИ*
  10. Параметры теста Новакки