<<
>>

ОШИБКИ В ИСПОЛЬЗОВАНИИ КРИТЕРИЯ СТЬЮДЕНТА

Критерий Стьюдента предназначен для сравнения двух групп. Однако на практике он широко (и неправильно — см. рис. 4.1) используется для оценки различии большего числа групп посредством попарного их сравнения.

При этом вступает в силу эффект множественных сравнений который нам еще неоднократно встретится в разнообразных обличиях.

Рассмотрим пример. Исследуют влияние препаратов А и Б на уровень глюкозы плазмы. Исследование проводят на трех группах — получавших препарат А, получавших препарат Б и получавших плацебо В. С помощью критерия Стьюдента проводят

3 парных сравнения: группу А сравнивают с группой В, группу Б — с группой В и наконец А с Б. Получив достаточно высокое значение t в каком либо из трех сравнении сообщают что «Р < 0,05». Это означает, что вероятность ошибочного заключения о существовании различии не превышает 5%. Но это неверно: вероятность ошибки значительно превышает 5%.

Разберемся подробнее. В исследовании был принят 5% уровень значимости. Значит вероятность ошибиться при сравнении групп А и В — 5%.

Казалось бы все правильно. Но точно также мы ошибемся в 5% случаев при сравнении групп Б и В. И наконец при сравнении групп А и Б ошибка возможна также в 5% случаев. Следовательно, вероятность ошибиться хотя бы в одном из трех сравнении составит не 5%, а значительно больше. В общем случае эта вероятность равна

Р = 1 -(1 - 0,05 )к, где k — число сравнений.

При небольшом числе сравнений можно использовать приближенную формулу

Р = 0,05k,

то есть вероятность ошибиться хотя бы в одном из сравнений примерно равна вероятности ошибиться в одном, помноженной на число сравнений.

Итак, в нашем исследовании вероятность ошибиться хотя бы в одном из сравнений составляет примерно 15%. При сравнении четырех групп число пар и соответственно возможных попарных сравнений равно 6.

Поэтому при уровне значимости в каждом из сравнении 0,05 вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0,05, а примерно 6 X 0,05 = 0,30. И когда исследователь, выявив таким способом «эффективный» препарат будет говорить про 5% вероятность ошибки, на самом деле эта вероятность равна 30%.

Вернемся на минуту к нашим марсианам. Рассматривая в гл. 2 случайные выборки из населения этой планеты мы убедились, что у разных выборок из одной совокупности могут быть заметно разные средние значения и стандартные отклонения — взять хоть три случайные выборки на рис. 2.6. Представим себе что это — результаты исследования влияния гормонов человека на рост марсиан. Одной группе дали тестостерон другой — эстрадиол, а третьей — плацебо. Как известно гормоны человека не оказывают на марсиан никакого действия, поэтому три экспериментальные группы — это просто три случайные выборки из одной совокупности как мы это и знали с самого начала. Что хорошо известно нам то неизвестно исследователям. На рис. 4.6 результаты исследования представлены в виде принятом в медицинских публикациях. Столбиками изображены выборочные средние. Вертикальные черточки задают интервалы в плюс-минус одну стандартную ошибку среднего. Засучив рукава наши исследователи приступают к попарному сравнению групп с помощью критерия Стьюдента и получают такие значения t плацебо—тестостерон — 2,39, плацебо—эстрадиол — 0,93 и тестостерон—эстрадиол — 1,34. Так как в каждом сравнении участвуют 2 группы по 10 марсиан в каждой число степеней свободы равно 2(10 - 1) = 18. По таблице 4.1 находим, что при 5% уровне значимости критическое значение t равно 2,101. Таким образом, пришлось бы заключить что марсиане, получавшие тестостерон стали меньше ростом чем марсиане, получавшие плацебо, в то время как эстрадиол по влиянию на рост существенно не отличается от плацебо, а тестостерон от эстрадиола. Задумайтесь над этим результатом. Что в нем не так?

Если тестостерон дал результаты не отличающиеся от эстрадиола, а эстрадиол действует неотличимо от плацебо то как тестостерон оказался отличным от плацебо? Столь странный вывод обычно не смущает исследователей, а лишь вдохновляет их на создание изощренного «Обсуждения».

Дисперсионный анализ приведенных данных дает значение F = 2,74. Число степеней свободы v = m - 1 = 3 - 1 = 2 и v =

меж вну

m (n - 1) = 3 (10 - 1) = 27. Критическое значение Fдля 5% уровня значимости равно 3,35, то есть превышает полученное нами. Итак, дисперсионный анализ говорит об отсутствии различий между группами.

В заключение приведем три правила:

• Критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп.

40

I

и

о

30 25 [16] [17]

лиз позволяет проверить лишь гипотезу о равенстве всех средних. Но если гипотеза не подтверждается, нельзя узнать какая именно группа отличается от других.

Это позволяют сделать методы множественного сравнения. Все они основаны на критерии Стьюдента, но учитывают, что сравнивается более одной пары средних. Сразу поясним, когда на наш взгляд следует использовать эти методы. Наш подход состоит в том, чтобы в первую очередь с помощью дисперсионного анализа проверить нулевую гипотезу о равенстве всех средних, а уже затем если нулевая гипотеза отвергнута выделить среди них отличные от остальных, используя для этого методы множественного сравнения*. Простейший из методов множественного сравнения — введение поправки Бонферрони.

Как было показано в предыдущем разделе при трехкратном применении критерия Стьюдента, с 5% уровнем значимости, вероятность обнаружить различия там, где их нет, составляет не 5%, а почти 3 X 5 = 15%. Этот результат является частным случаем

<< | >>
Источник: С. Гланц. Медико-биологическая статистика. Пер. с англ. — М., Практика1998. 1998

Еще по теме ОШИБКИ В ИСПОЛЬЗОВАНИИ КРИТЕРИЯ СТЬЮДЕНТА:

  1. Сравнение двух групп: критерий Стьюдента
  2. КРИТЕРИИ СТЬЮДЕНТА С ТОЧКИ ЗРЕНИЯ ДИСПЕРСИОННОГО АНАЛИЗА[15]
  3. Глава 4 Сравнение двух групп: критерий Стьюдента
  4. ПАРНЫЙ КРИТЕРИЙ СТЬЮДЕНТА
  5. Глава 54. Врачебные ошибки и несчастные случаи в медицинской практике. 54.1. Врачебные ошибки
  6. ОШИБКИ ВЕЧНЫ?
  7. Стандартная ошибка и доверительные интервалы выживаемости
  8. ОСНОВНЫЕ ОШИБКИ ПРИ ПРОВЕД ЕНИИ КОЛЪПОСКОПИИ
  9. Харольд Стерн. Кушетка. Ее использование и значение в психотерапии.Перевод с английского Е. Замфир (Кушетка. Ее использование и значение в психотерапии) и О. Лежниной (Введение в современный психоанализ и работы Хаймана Спотница); при участии Т. Рудаковой. Научная редакция проф. М. Решетникова.2002, 2002
  10. Непараметрические критерии
  11. КРИТЕРИИ ТЬЮКИ