Шрифт:
Интервал:
Закладка:
Означает ли это, что 5 % принятых результатов получены в силу случайности? Не совсем. На самом деле все наоборот: 5 % фантомов удовлетворяют критерию значимости. Казалось бы, разницы нет, но это не так.
Все гораздо страшнее.
Представьте, что p-значение — страж у врат цитадели науки. Он впускает истинно положительные результаты и отражает атаки варваров, то есть ложноположительных результатов. Мы знаем, что 5 % из них проскользнут внутрь, но в общем и целом это, похоже, неплохо.
Но что, если атакующих варваров в 20 раз больше, чем наших солдат? Тогда 5 % вторженцев — это ровно столько же, сколько всех бойцов на стороне цивилизации.
Хуже того, что, если на каждого верного долгу солдата приходится сотня варваров? Тогда 5 % атакующих подавят всю армию защитников цивилизации. Цитадель заполонят ложноположительные результаты, а истинно положительные будут жаться по углам.
Таким образом, опасность резко возрастает, когда ученые проводят чересчур много исследований, где истинный ответ отрицательный. Пение под фонограмму превращает вас в блондина? Начнется ли кислотный дождь, если вы наденете клоунские башмаки? Проведите миллион мусорных исследований, и 5 % пройдут фильтр. Их будет 50 000. Они захлестнут научные журналы, замелькают в заголовках новостей и сделают ленту «Твиттера» еще менее читабельной, чем обычно.
Если это никого особо не расстраивает, ситуация еще больше ухудшается. Сами того не желая, ученые снабдили варваров абордажными крюками и таранами.
В 2006-м психолог по имени Кристина Ольсон начала записывать проявления своеобразной тенденции: дети предпочитают счастливчиков неудачникам[171]. Ольсон и ее коллеги обнаружили такие предпочтения у представителей разных культур в возрасте от трех лет вплоть до вступления во взрослую жизнь[172]. Тезис был справедлив и для тех, кто потерпел мелкие неудачи (например, шлепнулся в грязь), и для тех, кто пострадал от катастроф (например, торнадо). Эффект был стойким и убедительным — истинно положительным.
Затем в 2008 году Ольсон согласилась стать научным руководителем дипломной работы нерадивого 21-летнего студента по имени я[173]. Благодаря ее огромной помощи я придумал скромное дополнительное исследование: будут ли пяти- и восьмилетние дети отдавать больше игрушек счастливчикам, чем неудачникам?
Я опросил 46 детей. Ответ был отрицательным.
Если я и выявил какую-то тенденцию, то она была обратной: мои респонденты, похоже, охотнее делились с несчастными, чем со счастливыми. В отличие от «забавных научных фактов» это казалось очевидным: естественно, вы отдадите игрушку тому, кто ее лишился. Мне нужно было выжать из эксперимента 30 страниц, и я посмотрел на свои данные. Каждый испытуемый ответил мне на восемь вопросов, и я проверил множество условий. В итоге я мог бы разделить результаты на категории несколькими способами.
Здесь, в неброских столбцах чисел, зародилась опасность.
Судя по всему, мой тезис был варваром у ворот. Важное для исходной гипотезы p-значение было значительно выше 0,05[174]. Но, если быть непредвзятым, надо было бы рассмотреть и другие возможные постановки задачи. Что, если я буду рассматривать исключительно пятилетних? Или только восьмилеток? Или только счастливых реципиентов? Или только неудачников? Играет ли значение половая принадлежность? Что, если восьмилетние девочки более отзывчивы по отношению к детям, которым они выставили четверку по шестибалльной шкале приязни, чем пятилетние мальчики?
Что, если, что, если, что, если…
По-разному дробя полученные данные, я мог превратить один эксперимент в двадцать. Уже не играло роли, отсеет ли p-значение моего варвара единожды, дважды или десять раз. Я мог маскировать его так или этак, пока он наконец не прокрадется в цитадель.
Вот так вот и рождается, возможно, величайший методологический кризис нашего юного столетия: хакерский взлом p-значения. Дайте группе правдолюбивых ученых возможность принять участие в гонке за положительными результатами, где победитель получает все, и наблюдайте, как они, наступая на горло собственной песне, ведут себя как 21-летний я, рационализируя хитроумные решения. «Ну, может, я перепроверю цифры…» «Я же знаю, это правильный результат; просто мне нужно исключить резко выделяющиеся данные…» «О, если я проконтролирую седьмую переменную, p-значение снизится до 0,03…» Большинство исследований носит двусмысленный характер из-за путаницы в переменных и использования множественных способов интерпретации данных. Что вы предпочтете: метод, делающий ваши результаты незначимыми, или тот, который даст p-значение ниже 0,05?