Шрифт:
Интервал:
Закладка:
После всеобщих выборов 2015 года в Великобритании, на которых Консервативная партия вопреки прогнозам получила абсолютное большинство голосов, и непредвиденных результатов референдума Brexit, многие опросчики в Великобритании продолжили корректировать свои модели, признавая, в частности, что их процедуры недооценивали силу консерваторов. В результате в ходе кампании по всеобщим выборам 2017 года прогнозы различных опросных групп были необычайно разбросаны. В итоге только две фирмы - YouGov и Survation - приблизились к правильному результату. YouGov правильно рассудила, что корректировки моделей, которые улучшили бы результаты опросов в 2015 году, сильно отличались от тех, которые требовали другие обстоятельства и другие вопросы 2017 года, когда студенты и другие молодые или космополитичные избиратели в неожиданно большом количестве голосовали против Консервативной партии Терезы Мэй. Survation, напротив, внесла меньше корректировок в свою первоначальную модель 2015 года, чем их конкуренты, и оказалась ближе, чем любая другая опросная группа, к окончательному результату. Очевидно, что любое предсказание опирается на некую базовую модель, и как достоверность предсказания, так и доверие к нему зависят от эмпирической релевантности этой модели. Даже когда проблема кажется чисто статистической - как считали многие опросчики - радикальная неопределенность и ее следствие нестационарности вмешиваются, чтобы сделать прогнозирование чем-то, кроме статистики.
Ложные истории и фальшивая статистика
В марте 2015 года британская бульварная газета Daily Express вышла с заголовком "Шоколад ускоряет потерю веса; исследование утверждает, что он снижает уровень холестерина и помогает заснуть". Подобные истории появились и в других СМИ. Они были основаны на статье, опубликованной в журнале International Archives of Medicine, который называет себя рецензируемым журналом с открытым доступом - одним из многих подобных журналов, некоторые из которых являются авторитетными, а некоторые - менее, которые появились в эпоху цифровых публикаций. Отчет был основан на исследовании; авторы действительно установили, что выбранная ими группа, которая придерживалась низкоуглеводной диеты, дополненной шоколадом, потеряла вес по сравнению с аналогичной группой, не употреблявшей шоколад. Потеря веса была названа "статистически значимой"; также было отмечено положительное влияние на уровень холестерина и сон, но оно было ниже уровня, который классическая частотная статистика считает значимым.
В исследовании точно сообщалось о его результатах, но на самом деле это была подделка, созданная немецкими учеными и журналистами, чтобы разоблачить низкие стандарты экспертной оценки, применяемые некоторыми якобы научными журналами, и доверчивость газет, их журналистов и редакторов. А их доверчивость стала примером, в крайней форме, широко распространенного злоупотребления вероятностными рассуждениями в науке и экономике. Что подразумевалось под "статистически значимым" в этом "исследовании", так это то, что вероятность того, что наблюдаемая в ходе исследования потеря веса является результатом случайности, составляла менее 5%. Но, как мы показали выше, любое утверждение о вероятности вытекает из модели, которая описывает, как были получены наблюдаемые данные, и обоснованность утверждения зависит от обоснованности модели. Что представляет собой модель в данном случае?
Эксперимент представлял собой плохо проведенный пример так называемого "рандомизированного контролируемого испытания" (РКИ), которое считается "золотым стандартом" исследований для оценки безопасности и эффективности новых лекарств. В настоящее время РКИ также становятся все более модными в экономических исследованиях. Цель состоит в том, чтобы выбрать две группы людей, которые различаются только по одному параметру - в данном случае по количеству съеденного ими шоколада. Очень трудно добиться того, чтобы группы были идентичны во всех остальных отношениях, хотя исследователи-клиницисты идут на крайние меры, чтобы добиться этого результата - например, они настаивают на проведении "двойных слепых" испытаний, в которых ни пациенты, ни врачи не знают, кто получает лекарство, а кто - только плацебо.
Даже в самых хорошо спланированных рандомизированных контролируемых исследованиях будет много неизбежных различий между испытуемыми и контрольной группой. Исследователи отметили, что испытуемые, употреблявшие шоколад, спали лучше; возможно, это было результатом большего потребления шоколада, но, скорее всего, нет. Возможно, они просто в среднем были более спокойными людьми. Неявное предположение заключается в том, что две исследуемые группы были идентичны во всех значимых аспектах, кроме потребления шоколада, где "значимый" означает все, что может повлиять на увеличение или потерю веса. Если бы это предположение было верным, то наблюдаемая разница была бы зарегистрирована только в одном из двадцати подобных исследований. Но трудно представить, что это предположение верно, или как можно узнать, что оно верно.
Было проведено множество, возможно, менее официальных испытаний, в ходе которых люди ели много шоколада и не смогли похудеть. Ни одно из них не попало в заголовки Daily Express. Исследователи склонны сообщать только о положительных результатах, потому что отрицательные результаты неинтересны, и это относится к более серьезным научным исследованиям, чем шоколадное "исследование". Как газеты не публикуют отчеты о безопасных улицах и безаварийных дорогах, так и академические журналы не принимают работы, демонстрирующие, что от поедания шоколада не худеют. Химики-исследователи по понятным причинам выделяют исследования, которые показывают положительное влияние изучаемых ими соединений, а фармацевтические компании имеют мощные стимулы для того, чтобы рекламировать эффективность своих продуктов, хороня, в буквальном и метафорическом смысле, свои неудачи.
Шоколадное "исследование" - это напоминание о том, что даже если препараты совершенно бесполезны и исследование действительно рандомизировано, "статистически значимый" результат будет получен в среднем в одном испытании из двадцати. Если не сообщать обо всех испытаниях, заявления о статистической значимости бессмысленны. И никто никогда не сообщит обо всех испытаниях, потому что люди не тратят время и деньги на то, чтобы доводить до конца исследования, которые даже не кажутся перспективными.
В ответ на критику такого рода некоторые фармацевтические компании согласились на более широкую публикацию как отрицательных, так и положительных результатов клинических испытаний. Эта большая открытость помогает смягчить проблемы, но не устраняет их. Полтора десятилетия назад Джон Иоаннидис, занимающий кафедры медицины и статистики в Стэнфордском университете, опубликовал работу под названием "Почему большинство опубликованных результатов исследований являются ложными", которая стала одной из самых цитируемых научных работ. Иоаннидис утверждал, что утверждения, сделанные в большинстве статей в академических журналах, оказались неспособными быть воспроизведенными в последующих исследованиях.
Хотя работа Иоаннидиса в основном касалась медицины и смежных дисциплин, его критика в равной степени справедлива и для аналогичных работ в области финансов и экономики. Экономисты часто черпают свои выводы из больших массивов данных. В одном крупном исследовании удалось воспроизвести менее половины опубликованных результатов, даже при помощи авторов и использовании тех же данных, которые использовали эти авторы. Более мелкое исследование экспериментальных результатов в экономике показало, что