Шрифт:
Интервал:
Закладка:
Как правило, нормальное распределение возникает, когда на измеряемый параметр одновременно незначительно влияет большое число независимых факторов (например, различные генетические, социальные и эволюционные факторы, определяющие, какой у человека будет рост), но существуют и другие формы распределения данных. Одну из них открыл Симеон Дени Пуассон.
Изучая число e в пятой главе, мы увидели, что распределения Пуассона наблюдаются тогда, когда события случаются редко, но при этом повторяются и остаются независимыми друг от друга. Пуассон изучал вероятность вынесения несправедливых приговоров в парижских судах в 1820-х годах, желая узнать, стали ли судьи лояльнее к гражданам (как выяснилось, не стали)[186]. Сегодня мы наблюдаем распределения Пуассона в различных системах, например, смотря на число голов в футбольных матчах (в Английской премьер-лиге чаще всего забивают по 2 и 3 гола) и на вероятное число метеоритов больше определенного размера, которые падают на Землю за год (для метеоритов диаметром более 22,4 метра в год с наибольшей вероятностью происходит 10, 11 или 12 столкновений).
Пример распределения Пуассона: распределение голов в футбольных матчах Английской премьер-лиги в сезоне 2019–2020 годов
В каждом случае можно вычислить среднее и применить его к распределению Пуассона, чтобы сделать прогноз. Допустим, я управляю баром и знаю, что в среднем за вечер я продаю 10 ящиков пива. Как подготовиться к неожиданному наплыву клиентов? Покупать на всякий случай 20 ящиков нет смысла: это слишком затратно. Но если я куплю слишком мало ящиков – скажем, всего 12, – то возникнет риск, что пиво закончится и покажется, будто я не умею управлять баром. Новые клиенты никогда ко мне не вернутся.
Оказывается, я могу эмпирически оценить необходимое число ящиков на базе распределения Пуассона. Есть формула, которая дает мне вероятность того, что вечером потребуется x ящиков пива. В ней задействуется историческое среднее λ и (разумеется, как везде и всюду) число Эйлера e:
(Восклицательный знак после x обозначает “факториал”, то есть x умножается на x – 1, x – 2, x – 3 и так далее до единицы.)
Вероятность (P) того, что вечером понадобится 15 ящиков пива, составляет всего 3,5 %. Я продам 13 ящиков только в 7,3 % вечеров. 12 ящиков мне хватит в 9,5 % вечеров.
Какой же мне нужен запас? Если я могу себе такое позволить, то, пожалуй, 15 ящиков… Полностью распродавать их я буду (примерно) 12 раз за год. Но решать мне.
И это важно. По сути, статистика сводится к принятию субъективных решений. Это, если хотите, наука эмпирических предположений. Она напоминает математику и пахнет математикой, но в ней нет и следа той абсолютной уверенности, которую мы ассоциируем с этой наукой. Статистика говорит лишь о том, что вероятно при определенных числах и при определенных оценках достоверности чисел. Может, потому мы, попытавшись освоить математику, и испытываем трудности со статистикой.
С самого начала нашего путешествия мы видим, что человеческий мозг не слишком приспособлен для работы с числами. Статистика дается ему тяжелее всего. Мы смотрим на статистические данные и забываем об оговорках, которые их сопровождают. Или просто не можем понять, что именно они значат. Например, насторожитесь ли вы, если я скажу, что, по данным Всемирной организации здравоохранения, ежедневное употребление 50 граммов переработанного мяса – или бутерброда с двумя кусочками бекона – на 18 % повышает риск развития рака кишечника?[187]
Если вас встревожила эта информация, возможно, вы некорректно поняли слово “повышает” в предыдущем предложении. Съедая каждый день бутерброд с беконом, вы вовсе не повышаете на 18 % вероятность того, что у вас когда-то разовьется рак. Вы повышаете риск войти в 6 % людей, которые не едят изо дня в день бутерброды с беконом, но рано или поздно сталкиваются с раком кишечника. Здесь и наблюдается повышение на 18 %: эти 18 % от 6 % добавляются к вероятности того, что у вас вообще разовьется болезнь.
Вычислим 18 % от 6 и получим 1,08. Следовательно, вместо риска в 6 % вы получаете риск в 7,08 %. Скорее всего, вас никогда не тревожило, что вы можете войти в 6 % людей, страдающих от рака кишечника. Думаете, вероятность в 7 % озаботит вас настолько, что вы откажетесь от ежедневного бутерброда с беконом?
Вероятно, это будет не самая рациональная причина отказаться от употребления такого количества переработанного мяса. Да и едите вы его не так уж много. А еще, учитывая, какое удовольствие вы получаете, съедая бутерброд с беконом, – и то, что вещи, которые приносят удовольствие, обычно благотворно сказываются на здоровье, – вам останется лишь принять субъективное решение.
Это справедливо и при рассмотрении вопроса о том, правда ли специалисты по физике частиц в 2012 году засекли бозон Хиггса, проводя эксперименты в ЦЕРН в Женеве. Они не могут быть на 100 % уверены в том, что детектор частиц не сработал случайно (да еще и несколько раз, поскольку вердикт был вынесен на основании нескольких наблюдений). Когда мы говорим, что уверены насчет чего-либо в науке, это значит лишь, что случайное совпадение в этой ситуации крайне маловероятно.
Статистики оценивают достоверность, анализируя различные числовые атрибуты данных – например, их среднее значение и размер выборки. Принципиальную важность имеет “стандартное отклонение” – мера того, насколько различные значения из выборки в среднем отличаются от среднего значения. Оно измеряется в тех же единицах, что и измеряемая величина: если это высота 101 далматинца в холке, то средняя высота может составлять 60 см при стандартном отклонении 3 см.
Стандартные отклонения при нормальном распределении
Стандартное отклонение позволяет взглянуть на данные в любопытном ракурсе. Если допустить, что рост собак имеет нормальное распределение со средним значением 60 см, то стандартное отклонение 3 см сообщает нам, что рост 68 % собак составляет от 57 см до 63 см. В таком контексте этот диапазон называется 1 стандартное отклонение, или 1σ (сигма). Два стандартных отклонения (2σ) – это диапазон высот в холке, в который входят 95 % собак. 3σ – это 99,7 %.
Вернемся к бозону Хиггса. Уверенность в результате эксперимента обозначается числом, производным от стандартного отклонения и других атрибутов данных. Оно называется p-значением, и объяснить простыми словами, что именно оно собой представляет, весьма нелегко. Если обратиться к статистику, он ответит словесной кашей в таком