Шрифт:
Интервал:
Закладка:
Идея статистической значимости проста: когда P-значение достаточно мало, мы говорим, что результаты статистически значимы. Этот термин был популяризирован Рональдом Фишером в 1920-х годах и, несмотря на критику, которую мы рассмотрим позже, продолжает играть в статистике важную роль.
Рональд Фишер был незаурядным, но трудным человеком. Незаурядным потому, что его считают пионером в двух областях – генетике и статистике. А трудным, поскольку, имея весьма скверный характер, мог крайне негативно отзываться о тех, кто (по его мнению) оспаривал его идеи; к тому же его репутации сильно повредила поддержка евгеники и критика доказательств связи между курением и раком легких. И хотя его личная репутация пострадала в результате обнаружения его финансовых связей с табачной промышленностью, на научной репутации ученого это никак не сказалось, так как его идеи неизменно находят новое применение при анализе больших массивов данных.
Как упоминалось в главе 4, Фишер развил идею рандомизации для сельскохозяйственных испытаний во время работы на опытной сельскохозяйственной станции в Ротамстеде. Потом он продемонстрировал идеи рандомизации в своем знаменитом тесте с дегустацией чая, в ходе которого некая женщина (по имени Мюриэль Бристоль) заявила, что может по вкусу определить, добавляли в чашку молоко до или после чая.
В четыре чашки налили сначала чай, а затем молоко, а в четыре – сначала молоко, а потом чай. Все восемь чашек в случайном порядке выставили в ряд и сообщили Мюриэль, что здесь по четыре чашки каждого вида наливания. Говорят, она правильно определила все чашки. Если считать нулевой гипотезой то, что Мюриэль просто угадывала, то с помощью гипергеометрического распределения нетрудно показать, что вероятность этого равна 1/70 ≈ 1,4 %[192]. Такое P-значение считается маленьким[193], а потому результат можно объявить статистически значимым подтверждением того, что Мюриэль не угадывала, а действительно умела различать, в какой последовательности доливали молоко.
Подводя итог, мы действуем следующим образом.
1. Ставим вопрос в терминах нулевой гипотезы, которую хотим проверить. Обычно она обозначается H0.
2. Выбираем какую-нибудь статистику критерия, которая, если ее величина будет достаточно экстремальной, позволит нам поставить под сомнение нулевую гипотезу (часто большие значения такой статистики указывают на несовместимость с нулевой гипотезой).
3. Создаем выборочное распределение этой статистики при условии, что нулевая гипотеза верна.
4. Проверяем, находится ли наблюдаемая величина в хвостах этого распределения, что определяем с помощью P-значения: какова вероятность наблюдаемого экстремального распределения в случае, если верна нулевая гипотеза. Численно эта вероятность представляет собой площадь части распределения, лежащей правее наблюдаемой величины.
5. Аккуратно подходим к определению, что такое «экстремальная» величина, – например, если с нулевой гипотезой несовместимы и большие положительные, и большие отрицательные значения статистики критерия, то P-значение должно это учитывать.
6. Объявляем результат статистически значимым, если P-значение меньше некоторой критической пороговой величины.
Рональд Фишер использовал в качестве удобных порогов значимости P