Шрифт:
Интервал:
Закладка:
Таблица 8.3а. Пример расчета вероятности террористической атаки по теореме Байеса
Однако идея, заложенная в теорему Байеса, заключается в том, что мы не корректируем свои расчеты вероятности только один раз. Мы делаем это постоянно по мере появления новых свидетельств. Таким образом, наша апостериорная вероятность террористической атаки после столкновения первого самолета, равная 38 %, становится нашей априорной возможностью столкновения со вторым.
И если вы еще раз проведете расчеты после столкновения второго самолета с башней Всемирного торгового центра, то увидите, что вероятность террористической атаки 99,99 % сменяется почти полной уверенностью в этом событии. Один несчастный случай в яркий солнечный день в Нью-Йорке был крайне маловероятен, но второй практически не мог не произойти (табл. 8.3б), как мы внезапно и с огромным ужасом поняли.
Таблица 8.3б. Пример расчета вероятности террористической атаки по теореме Байеса
Я сознательно выбрал в качестве примеров довольно сложные случаи – террористические атаки, рак, супружеская измена, – поскольку хочу продемонстрировать масштаб проблем, к решению которых может быть применено байесовское мышление. Теорема Байеса – это не волшебная формула. В ее самой простой формуле, которую мы приводим в этой книге, используются простые арифметические действия по сложению, вычитанию, делению и умножению. Но для того, чтобы она дала нам полезный результат, мы должны снабдить ее информацией, в частности нашими расчетами априорных вероятностей.
Однако теорема Байеса заставляет нас думать о вероятности событий, происходящих в мире, даже когда речь заходит о вопросах, которые мы не хотели бы считать проявлением случайности. Она не требует, чтобы мы воспринимали мир как внутренне, метафизически неопределенный: Лаплас считал, что все, начиная от орбит планет и заканчивая движением мельчайших молекул, управляется упорядоченными ньютоновскими правилами. И тем не менее он сыграл важную роль в развитии теоремы Байеса. Скорее можно сказать, что эта теорема связана с эпистемологической неопределенностью – границами наших знаний.
Когда мы не можем думать подобно истинным байесовцам, ложноположительное срабатывание начинает представлять собой проблему не только для маммографии, но и для всей науки. В введении я упомянул работу врача-исследователя Джона П. А. Иоаннидиса. В 2005 г. Иоаннидис опубликовал влиятельный труд под названием «Почему самые широко публикуемые выводы исследований неверны»{577}, в котором процитировал множество статистических и теоретических аргументов, подтверждавших, что (как и следует из названия) большинство гипотез, признанных истинными в медицине и большинстве других научных профессий, являются, по сути, ложными.
Гипотеза Иоаннидиса, как мы уже сказали, кажется одной из немногих истинных. Так, сотрудники компании Bayer Laboratories обнаружили, что не могут повторить в ходе собственных экспериментов до двух третей положительных заключений, опубликованных в медицинских журналах{578}. Еще один способ проверить правдивость выводов исследования состоит в том, чтобы понять, насколько точными являются результаты предсказаний в реальном мире, И, как мы видим на множестве примеров, приведенных в этой книге, часто выводы не выдерживают испытание реальностью. Судя по всему, частота появления неудачных предсказаний во множестве областей, от сейсмологии до политических наук, оказывается невероятно высокой.
«За последние 20 лет благодаря геометрическому росту доступной информации, развитию геномики и других технологий мы получили возможность измерять миллионы и миллионы потенциально интересных переменных, – рассказал мне Иоаннидис. – Можно ожидать, что мы сможем использовать эту информацию для того, чтобы заставить предсказания работать на нас. Я не говорю, что мы не достигли никакого прогресса. Принимая во внимание наличие миллионов научных работ, признать это было бы крайне стыдно. Однако совершенно очевидно, что мы не сделали миллионов открытий. Большинство работ не вносят реального вклада в развитие знания».
Вот почему наши предсказания могут оказаться более подверженными неудаче в эру Больших данных. С экспоненциальным ростом объема доступной информации по той же экспоненте растет и количество гипотез, требующих изучения. Например, правительство США в настоящее время публикует сведения о 45 тыс. экономических статистических показателей. Если вы захотите протестировать связи между всеми комбинациями из пар этих показателей – есть ли, допустим, причинно-следственная связь между ставкой банковского кредитования и уровнем безработицы в Алабаме? – то вам потребуется протестировать не меньше миллиарда гипотез[109]. Однако количество осмысленных связей в данных, говорящих о наличии причинно-следственной связи, а не о корреляции, и позволяющих протестировать то, каким образом мир работает по-настоящему, на много порядков ниже. Истина не растет теми же темпами, что и информация; по сути, в мире сейчас не больше истины, чем было до появления интернета или печатного пресса. Основная часть данных – всего лишь шум, так же как основная часть Вселенной заполнена вакуумом.
Тем не менее, как мы знаем из теоремы Байеса, в случаях, когда реальная вероятность возникновения какой-либо болезни в популяции низка (рак груди у молодых женщин; истина в море данных), ложноположительное срабатывание может доминировать в результатах, если только мы не будем достаточно внимательны и осторожны. На рис. 8.3 представлено графическое отображение этой картины. Так, 80 % истинных научных гипотез вполне справедливо признаются истинными, а около 90 % неверных гипотез совершенно справедливо отвергаются. Тем не менее, поскольку истинные открытия возникают крайне редко, оказывается, что около двух третей выводов, которые мы считаем правильными, на самом деле оказываются ложными!