Шрифт:
Интервал:
Закладка:
Экономист Рональд Коуз вкратце описал эту ситуацию, заявив, что, если пытать данные достаточно долго, они непременно признаются. Но, как известно, признания, полученные с помощью пыток, далеко не всегда отражают истину. В нашем примере цифры были сгенерированы случайным образом и в структурах, которые мы можем в них обнаружить, нет никакого скрытого смысла.
Концепция p-хакинга формализует эту ситуацию. Начнем с того, что фундаментальным инструментом в научных исследованиях является проверка значимости. Это формальная статистическая процедура для проверки гипотез. Она начинается с расчета сводной статистики для нашей выборки. Например, мы можем обобщить выборку, используя среднее значение, медиану или дисперсию, в зависимости от того, какой аспект данных нам интересен. Теперь, если мы возьмем другую выборку, вполне вероятно, что ее сводная статистика будет иметь другие значения. Таким образом, если взять множество выборок, можно получить распределение статистических значений. Статистические методы позволяют рассчитать форму этого распределения, если допустить, что наша гипотеза верна.
Затем, сравнивая фактические наблюдаемые значения сводной статистики с этим распределением, мы можем увидеть, как часто нам следует ожидать экстремальных значений в случае, если гипотеза верна. Вероятность получить для данной модели распределения значений такое же или более экстремальное значение статистики по сравнению с ранее наблюдаемым называется p-значением проверки. Очень низкое p-значение, скажем, равное 1 %, будет означать, что если наша гипотеза верна, то мы должны получить выборку с такими же или более экстремальными значениями лишь в 1 из 100 случаев. Это говорит о том, что либо наша гипотеза верна и произошло маловероятное событие, либо гипотеза ошибочна.
Для удобства p-значения сравнивают с обычными пороговыми значениями. Если наш анализ дает p-значение, не превышающее порогового значения, то говорят, что результат является статистически значимым для этого порогового уровня. Так, если мы выбрали порог 5 %, тогда p-значения той же величины или меньше позволят нам утверждать, что результат значим на уровне 5 %.
Приведу пример. Допустим, я выдвигаю предположение, что некая монета абсолютно честная, то есть вероятность выпадения решки всякий раз, когда я подбрасываю ее, будет равна 50 %. Чтобы проверить это, я должен много раз подбросить монету и посмотреть, какая доля исходов придется на решку. Предположив, что монета честная, я бы ожидал, что это будет около половины всех бросков, но совсем не обязательно орлы и решки выпадут совершенно одинаковое число раз. Напротив, я бы как раз ожидал некоторого незначительного отклонения от 50 %, но не слишком большого, и уж тем более не экстремального. Проверка значимости сообщит нам вероятность (при условии, что монета честная), с которой мы можем наблюдать отклонение равное или превышающее отклонение, полученное в ходе эксперимента. Очевидно, что если маловероятные экстремальные результаты все-таки получены, то имеет смысл усомниться в истинности выдвинутой гипотезы. Например, шанс того, что при подбрасывании честной монеты решка выпадет 90 или более раз из 100, астрономически мал (этот шанс и представляет собой p-значение). Поэтому, если такое все же произошло и монета 90 раз из 100 упала решкой вверх, мы должны заподозрить, что она нечестная.
Между прочим, смысл p-значения часто понимается абсолютно неверно. Принято думать о нем как о показателе вероятности того, что гипотеза верна. Это не так. Гипотеза либо верна, либо ошибочна, а p-значение просто показывает вероятность получения определенных экстремальных результатов в первом случае, то есть когда гипотеза верна.
Итак, мы разобрались с «р-значением», но что означает «p», если к нему добавить «хакинг»?
Этот термин появился благодаря пагубной практике проводить бесконечное множество проверок значимости без учета их количества. Почему это становится проблемой, понять несложно. Предположим, что мы проверяем 100 никак не связанных между собой гипотез, каждая из которых верна, но нам это неизвестно. Далее предположим, что мы рассматриваем p-значение на уровне 2 % для любой из этих 100 гипотез как достаточно низкое, чтобы отнестись к ней с сомнением. Для каждой взятой в отдельности проверки значимости это вполне разумно, поскольку означает, что вероятность ложных подозрений в отношении этой единственной гипотезы, если она верна, составляет всего 2 %. Но в случае, если вы проводите для каждой из 100 гипотез 100 проверок с уровнем p-значения 2 %, получается, что вероятность возникновения сомнений по крайней мере для одной из них составит 87 %. Скорее всего, вы решите, что хотя бы одна из гипотез является ошибочной, даже если все они будут верны. Вспомните о достаточно долгих пытках данных! Если вы скрываете тот факт, что провели 100 проверок, по сути, превращая их в темные данные (DD-тип 2: данные, о которых мы не знаем, что они отсутствуют), то ваши выводы могут быть очень обманчивыми.
Такая грубая ошибка допускается в научной литературе раз за разом. Рандомизированное исследование, проведенное в 1987 г. на материале четырех ведущих медицинских журналов, показало, что «74 % всех испытаний имели по меньшей мере одно сравнение, отклонившее верную гипотезу, а 60 % имели по меньшей мере одно сравнение, подтвердившее ошибочную, что явилось негативным следствием статистической проблемы множественных сравнений. Ни в одном из испытаний, в которых были обнаружены нарушения, не рассматривалось потенциальное влияние проблемы множественных сравнений на сделанные выводы». Под «негативным следствием… множественных сравнений» авторы подразумевают, что в исследованиях не учитывалась многочисленность статистических тестов, поэтому ложноположительные результаты были весьма вероятными. Хотелось бы надеяться, что эта проблема уже осталась в прошлом, однако по опыту могу сказать, что она до сих пор недостаточно осознается[122].
Давайте обратимся к классической статье по этой проблеме, написанной Крейгом Беннеттом и его коллегами, которая гораздо интереснее, чем можно ожидать судя по названию: «Нейронные корреляции межвидового восприятия, полученные после смерти атлантического лосося: аргумент в пользу коррекции множественных сравнений»[123]. Статья основана на результатах МРТ-сканирования мозга мертвого лосося, которому «показали серию фотографий, изображающих людей в различных ситуациях и… попросили определить, какие эмоции они испытывают». Вероятно, вы и без экспериментальных данных уже сделали свой вывод о реакции мозга мертвого лосося на показ фотографий. Но дело в том, что результат МРТ-сканирования представляет собой примерно 130 000 элементов объемного изображения, которые по аналогии с двумерными пикселями называют вокселями. И каждый из этих вокселей имеет небольшой шанс показать электрическую активность сканируемого материала исключительно в силу случайных фоновых шумов оборудования, а вовсе не потому, что клетки мозга мертвого лосося действительно реагируют. И хотя отдельно взятый воксель имеет лишь крошечный шанс дать ложный сигнал, вероятность его появления резко возрастает с учетом большого количества самих вокселей. Суммируйте огромное число крошечных шансов, и вот уже один, а то и более вокселей показывают электрическую активность, создавая впечатление, что некоторые нейроны мозга лосося активизируются, даже если сам лосось мертв. И действительно, Беннетт и его коллеги обнаружили несколько вокселей, подающих явные сигналы. В результате они пришли к такому выводу: «Либо мы наткнулись на поразительное открытие на стыке ихтиологии и посмертных когнитивных функций, либо что-то не так с нашим статистическим подходом. Можем ли мы заключить из этих данных, что лосось выразил свое мнение, отвечая на поставленный вопрос? Конечно, нет. Контролируя когнитивные способности субъекта, в данном случае мы полностью исключили эту возможность».