Шрифт:
Интервал:
Закладка:
Мы пришли к выводу, что если бы кто-то занимался таким отслеживанием и на Шипмана в 1984 году завели бы уголовное дело и осудили, то тем самым спасли бы примерно 175 жизней. И все исключительно с помощью применения простой процедуры статистического мониторинга.
После этого была запущена система наблюдения для врачей, которая немедленно выявила врача с еще более высоким уровнем смертности, чем у Шипмана! Расследование показало, что он работал в городке на южном побережье, где было много домов престарелых и множество стариков, и сознательно помогал многим пациентам оставаться дома до смерти, не настаивая на госпитализации в последние дни жизни. Было бы несправедливо осуждать этого доктора за выдачу большого числа свидетельств о смерти. Урок заключается в том, что, хотя статистические системы способны обнаружить выбросы, они не могут предложить их объяснения, поэтому нужно тщательно разбираться в каждом из них, чтобы избежать ложных обвинений. Еще одна причина быть осторожными с алгоритмами.
Что может быть не так с P-значениями?
Рональд Фишер развил идею P-значения как меры совместимости данных с какой-то предварительно сформулированной гипотезой. Таким образом, если вы вычислите P-значение и оно будет маленьким, это означает, что если ваша гипотеза верна, а значение статистики получилось крайне большим или малым, то это маловероятно; стало быть, либо произошло нечто удивительное, либо ваша исходная гипотеза неверна. Такая логика довольно запутанна, но мы видели, насколько полезной может быть эта базовая идея. Так что же может пойти не так?
Оказывается, многое. Фишер описывал ситуации, как в первых примерах этой главы, – с одним набором данных, одной характеристикой результата и одной проверкой совместимости. Но за последние несколько десятилетий P-значения существенно распространились в научной литературе – одно исследование насчитало 30 тысяч t-статистик и соответствующих P-значений всего лишь за три года публикации в восемнадцати журналах по психологии и нейробиологии[207].
Итак, давайте посмотрим, что можно ожидать при, скажем, 1000 исследований, каждое с размером 5 % (α) и мощностью 80 % (1 – β), хотя заметим, что на практике у большинства исследований мощность значительно ниже 80 %. Да, в реальном мире эксперименты проводятся в надежде сделать открытие, тем не менее нужно признать, что большинство нулевых гипотез верны (хотя бы приблизительно). Итак, предположим, что только 10 % проверенных нулевых гипотез на самом деле ложны: при испытаниях новых препаратов даже это число, вероятно, завышено – процент успехов здесь весьма низкий. Тогда, аналогично описанной в главе 8 схеме, рис. 10.5 показывает, чего мы можем ожидать при 1000 исследований.
Рис. 10.5
Ожидаемые количества для результатов 1000 проверок гипотез с размером 5 % (вероятность ошибки первого рода, α) и мощностью 80 % (1 – β, при вероятности ошибки второго рода β). Только 10 % (100) нулевых гипотез ложны, и мы правильно обнаружим 80 % из них (80). Из 900 нулевых гипотез, которые истинны, мы неправильно отвергнем 5 % (45). В целом из 125 «открытий» ложными окажутся 36 % (45)
Получается, что можно ожидать заявления о 125 «открытиях», из которых 45 ложноположительные: иными словами, 36 % (больше трети) отклоненных нулевых гипотез («открытий») – это ложные утверждения. Столь мрачная картина усугубляется еще сильнее, если учесть, что на самом деле происходит в научной литературе, ориентированной на публикацию положительных результатов. После проведения аналогичного анализа Джон Иоаннидис, профессор школы медицины Стэнфордского университета, сделал в 2005 году свое знаменитое заявление, что «большинство публикуемых результатов исследований ложны»[208]. Мы вернемся к причинам его столь печального заключения в главе 12.
Поскольку все эти ложные открытия основаны на P-значениях, указывающих на «значимый» результат, в потоке неверных научных выводов все чаще стали винить именно их. В 2015 году один авторитетный журнал по психологии даже объявил, что запретит проверку значимости нулевой гипотезы. Наконец, в 2016 году Американской статистической ассоциации (ASA) удалось согласовать с группой статистиков шесть принципов, касающихся P-значений.
Первый принцип просто описывает, что могут делать P-значения.
1. P-значения могут указывать на то, насколько несовместимы данные с конкретной статистической моделью.
Как мы не раз видели, P-значения делают это, по сути, измеряя, насколько удивительны имеющиеся данные, при условии нулевой гипотезы, что чего-то не существует. Например, мы спрашиваем, насколько несовместимы данные с утверждением, что лекарство не работает? Такая логика может быть изощренной, но полезной.
Второй принцип помогает исправить ошибки в интерпретации P-значений.
2. P-значения не измеряют вероятность того, что изучаемая гипотеза верна или что данные получены исключительно по случайности.
В главе 8 мы очень внимательно различали соответствующие утверждения об условных вероятностях, такие как «только 10 % женщин без рака молочной железы имеют положительную маммограмму» и (ложное) «только у 10 % женщин с положительной маммограммой нет рака молочной железы». Эта ошибка известна как «ошибка прокурора», и мы видели, что есть аккуратные способы ее исправить, представив, чего можно ожидать для 1000 тестируемых женщин.
Аналогичные проблемы могут возникать с P-значениями, которые измеряют вероятность появления таких экстремальных данных при условии, что нулевая гипотеза верна, но не измеряют вероятность того, что нулевая гипотеза верна, при наличии таких данных. Это тонкое, но существенное различие.
Когда команда ЦЕРН сообщила о результате «пять сигма» для бозона Хиггса, что соответствует P-значению примерно 1 на 3,5 миллиона, «Би-би-си» правильно это интерпретировала, сказав, что это означает «вероятность примерно 1 на 3,5 миллиона, что такой сигнал появился бы при отсутствии частицы Хиггса». Однако почти во всех остальных источниках это P-значение истолковали неверно. Например, журнал Forbes писал: «Шансы на то, что это не бозон Хиггса, составляют меньше одной миллионной» – яркий пример ошибки прокурора. Типичной реакцией был текст в газете The Independent: «Вероятность, что их результат – статистическая случайность, составляет меньше одной миллионной». Это, возможно, не так явно вводит в заблуждение, как у Forbes, но все равно приписывает малую вероятность тому, что «их результат – статистическая случайность», что, по логике, то же самое, что сказать о вероятности проверяемой нулевой гипотезы. Вот почему ASA пытается подчеркнуть, что P-значение – это не «вероятность того, что данные получены исключительно случайно».