Шрифт:
Интервал:
Закладка:
Третий принцип ASA пытается противостоять одержимости статистической значимостью.
3. Научные заключения и процесс принятия решений не должны основываться только на том, переходит ли P-значение определенный порог.
Когда Рональд Фишер начал публиковать таблицы со значениями статистик, которые соответствовали результатам P < 0,05 или P < 0,01, он вряд ли представлял, что такие довольно произвольные значения станут доминировать в научных публикациях, причем все результаты будут стремиться поделить на «значимые» и «незначимые». Отсюда уже недалеко и до того, чтобы расценивать «значимые» результаты как доказанные открытия, что создает крайне упрощенный и опасный прецедент перехода от данных прямо к заключениям – без паузы на размышление.
Губительное следствие такой дихотомии – неправильное толкование «незначимого». Незначимое P-значение подразумевает, что данные совместимы с нулевой гипотезой, но это не говорит о том, что нулевая гипотеза определенно верна. В конце концов, отсутствие прямых доказательств пребывания преступника на месте преступления еще не означает, что он невиновен. Но эта ошибка на удивление распространена.
Рассмотрим крупный научный спор о пользе алкоголя, скажем одной порции[209] в день. Как показало одно исследование, умеренное потребление алкоголя полезно только пожилым женщинам, однако тщательная проверка выявила и другие группы населения, извлекшие из него пользу, но она не была статистически значимой, поскольку доверительные интервалы вокруг оценки предполагаемой выгоды в этих группах были очень широкими. Хотя доверительные интервалы включали 0 (и потому эффект не был статистически значим), данные полностью согласовывались с высказанным ранее предположением о 10–20-процентном снижении риска смертности. Между тем The Times провозгласила, что «алкоголь не приносит никакой пользы здоровью»[210].
Подытоживая, можно сказать, что крайне неправильно интерпретировать выражение «незначимо отличается от 0» как означающее, что реальный эффект действительно равен 0, особенно в небольших исследованиях с низкой мощностью и широкими доверительными интервалами.
Четвертый принцип ASA звучит вполне безобидно.
4. Правильный вывод требует полной отчетности и прозрачности.
Самое очевидное – необходимо четко указать, сколько проверок фактически проведено. Если подчеркивается самый значимый результат, то можно сделать какую-то поправку (например, методом Бонферрони). Но проблемы с выборочной отчетностью могут быть намного тоньше, как мы увидим в следующей главе. Только зная план исследования и то, что было на самом деле сделано, можно избежать проблем с P-значениями.
Вы запланировали исследование, собрали данные, провели анализ и получили «значимый» результат. Обязательно ли это должно быть важным открытием? Пятый принцип ASA просит вас быть не слишком самонадеянным.
5. P-значение или статистическая значимость не измеряет величину эффекта или важность результата.
Наш следующий пример показывает, что (особенно в случае больших выборок) мы можем быть достаточно уверены в наличии связи, но при этом не сильно впечатляться ее важностью.
Почему поступление в университет повышает риск развития опухоли мозга?
Мы рассматривали этот вопрос в главе 4. Сделав поправку в регрессионном анализе на семейное положение и уровень дохода, шведские ученые обнаружили относительное повышение риска на 19 % между низким (начальная школа) и более высоким (университетский диплом) уровнем образования, с 95-процентным доверительным интервалом от 7 до 33 %. Интересно, что в работе не указывалось никаких P-значений, однако в силу того что 95-процентный интервал для относительного риска не включает 1, можно заключить, что P < 0,05.
К этому моменту читатель уже должен иметь наготове список потенциальных вопросов к такому выводу, однако авторы упредили их, обнародовав одновременно с полученными результатами следующее:
• вывод о причинно-следственной связи невозможен;
• никакие поправки относительно факторов, потенциально влияющих на образ жизни (например, потребление алкоголя), не вносились;
• люди с более высоким экономическим статусом обычно чаще обращаются за медицинской помощью, поэтому может возникнуть так называемая предвзятость отчетности.
Но одна важная характеристика все же не была упомянута: небольшая величина видимой связи. Повышение риска на 19 % между низким и высоким уровнем образования гораздо ниже, чем для многих видов рака. В статье сообщалось, что в группе из более чем 2 миллионов человек старше 18 лет было диагностировано 3715 опухолей головного мозга (примерно 1 на 600). Следовательно, если мы, как в главе 1, переведем относительные риски в абсолютные, то получим такие расчеты:
• мы можем ожидать, что среди примерно 3 тысяч человек с минимальным уровнем образования будет диагностировано пять опухолей (если базовый риск 1 на 600);
• а среди примерно 3 тысяч человек с максимальным уровнем образования – шесть опухолей (относительное увеличение на 19 %).
Такой расчет формирует несколько иное восприятие результатов и весьма обнадеживает. Столь небольшой повышенный риск развития редкого вида рака может оказаться статистически значимым только при изучении огромного количества людей: в нашем случае – свыше двух миллионов.
Поэтому из этого научного исследования можно извлечь два важных урока:
• «большие данные» способны легко привести к статистически значимым, но не имеющим практической значимости результатам;
• не следует беспокоиться, что учеба в вузе приведет к развитию опухоли головного мозга.
Последний принцип ASA довольно тонкий.
6. Само по себе P-значение не дает надежного подтверждения модели или гипотезы. Например, P-значение, близкое к 0,05, взятое само по себе, предлагает лишь слабое свидетельство против нулевой гипотезы.
Это утверждение, частично основанное на «байесовской» аргументации, описанной в следующей главе, побудило группу известных статистиков выдвинуть предложение изменить стандартное пороговое значение для «открытия» нового эффекта на P < 0,005[211].