litbaza книги онлайнРазная литератураИскусство большего. Как математика создала цивилизацию - Майкл Брукс

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 56 57 58 59 60 61 62 63 64 ... 84
Перейти на страницу:
продолжительности жизни людей тоже приближаются к нормальному распределению, пусть и немного асимметричному (выявляя эту асимметрию, они и зарабатывают деньги). Нормальное распределение повсюду. Хотя нам и неясно, как именно оно получило свое название, нормальное распределение вполне можно считать нормой распределения данных.

Как правило, нормальное распределение возникает, когда на измеряемый параметр одновременно незначительно влияет большое число независимых факторов (например, различные генетические, социальные и эволюционные факторы, определяющие, какой у человека будет рост), но существуют и другие формы распределения данных. Одну из них открыл Симеон Дени Пуассон.

Изучая число e в пятой главе, мы увидели, что распределения Пуассона наблюдаются тогда, когда события случаются редко, но при этом повторяются и остаются независимыми друг от друга. Пуассон изучал вероятность вынесения несправедливых приговоров в парижских судах в 1820-х годах, желая узнать, стали ли судьи лояльнее к гражданам (как выяснилось, не стали)[186]. Сегодня мы наблюдаем распределения Пуассона в различных системах, например, смотря на число голов в футбольных матчах (в Английской премьер-лиге чаще всего забивают по 2 и 3 гола) и на вероятное число метеоритов больше определенного размера, которые падают на Землю за год (для метеоритов диаметром более 22,4 метра в год с наибольшей вероятностью происходит 10, 11 или 12 столкновений).

Пример распределения Пуассона: распределение голов в футбольных матчах Английской премьер-лиги в сезоне 2019–2020 годов

В каждом случае можно вычислить среднее и применить его к распределению Пуассона, чтобы сделать прогноз. Допустим, я управляю баром и знаю, что в среднем за вечер я продаю 10 ящиков пива. Как подготовиться к неожиданному наплыву клиентов? Покупать на всякий случай 20 ящиков нет смысла: это слишком затратно. Но если я куплю слишком мало ящиков – скажем, всего 12, – то возникнет риск, что пиво закончится и покажется, будто я не умею управлять баром. Новые клиенты никогда ко мне не вернутся.

Оказывается, я могу эмпирически оценить необходимое число ящиков на базе распределения Пуассона. Есть формула, которая дает мне вероятность того, что вечером потребуется x ящиков пива. В ней задействуется историческое среднее λ и (разумеется, как везде и всюду) число Эйлера e:

(Восклицательный знак после x обозначает “факториал”, то есть x умножается на x – 1, x – 2, x – 3 и так далее до единицы.)

Вероятность (P) того, что вечером понадобится 15 ящиков пива, составляет всего 3,5 %. Я продам 13 ящиков только в 7,3 % вечеров. 12 ящиков мне хватит в 9,5 % вечеров.

Какой же мне нужен запас? Если я могу себе такое позволить, то, пожалуй, 15 ящиков… Полностью распродавать их я буду (примерно) 12 раз за год. Но решать мне.

И это важно. По сути, статистика сводится к принятию субъективных решений. Это, если хотите, наука эмпирических предположений. Она напоминает математику и пахнет математикой, но в ней нет и следа той абсолютной уверенности, которую мы ассоциируем с этой наукой. Статистика говорит лишь о том, что вероятно при определенных числах и при определенных оценках достоверности чисел. Может, потому мы, попытавшись освоить математику, и испытываем трудности со статистикой.

С самого начала нашего путешествия мы видим, что человеческий мозг не слишком приспособлен для работы с числами. Статистика дается ему тяжелее всего. Мы смотрим на статистические данные и забываем об оговорках, которые их сопровождают. Или просто не можем понять, что именно они значат. Например, насторожитесь ли вы, если я скажу, что, по данным Всемирной организации здравоохранения, ежедневное употребление 50 граммов переработанного мяса – или бутерброда с двумя кусочками бекона – на 18 % повышает риск развития рака кишечника?[187]

Если вас встревожила эта информация, возможно, вы некорректно поняли слово “повышает” в предыдущем предложении. Съедая каждый день бутерброд с беконом, вы вовсе не повышаете на 18 % вероятность того, что у вас когда-то разовьется рак. Вы повышаете риск войти в 6 % людей, которые не едят изо дня в день бутерброды с беконом, но рано или поздно сталкиваются с раком кишечника. Здесь и наблюдается повышение на 18 %: эти 18 % от 6 % добавляются к вероятности того, что у вас вообще разовьется болезнь.

Вычислим 18 % от 6 и получим 1,08. Следовательно, вместо риска в 6 % вы получаете риск в 7,08 %. Скорее всего, вас никогда не тревожило, что вы можете войти в 6 % людей, страдающих от рака кишечника. Думаете, вероятность в 7 % озаботит вас настолько, что вы откажетесь от ежедневного бутерброда с беконом?

Вероятно, это будет не самая рациональная причина отказаться от употребления такого количества переработанного мяса. Да и едите вы его не так уж много. А еще, учитывая, какое удовольствие вы получаете, съедая бутерброд с беконом, – и то, что вещи, которые приносят удовольствие, обычно благотворно сказываются на здоровье, – вам останется лишь принять субъективное решение.

Это справедливо и при рассмотрении вопроса о том, правда ли специалисты по физике частиц в 2012 году засекли бозон Хиггса, проводя эксперименты в ЦЕРН в Женеве. Они не могут быть на 100 % уверены в том, что детектор частиц не сработал случайно (да еще и несколько раз, поскольку вердикт был вынесен на основании нескольких наблюдений). Когда мы говорим, что уверены насчет чего-либо в науке, это значит лишь, что случайное совпадение в этой ситуации крайне маловероятно.

Статистики оценивают достоверность, анализируя различные числовые атрибуты данных – например, их среднее значение и размер выборки. Принципиальную важность имеет “стандартное отклонение” – мера того, насколько различные значения из выборки в среднем отличаются от среднего значения. Оно измеряется в тех же единицах, что и измеряемая величина: если это высота 101 далматинца в холке, то средняя высота может составлять 60 см при стандартном отклонении 3 см.

Стандартные отклонения при нормальном распределении

Стандартное отклонение позволяет взглянуть на данные в любопытном ракурсе. Если допустить, что рост собак имеет нормальное распределение со средним значением 60 см, то стандартное отклонение 3 см сообщает нам, что рост 68 % собак составляет от 57 см до 63 см. В таком контексте этот диапазон называется 1 стандартное отклонение, или 1σ (сигма). Два стандартных отклонения (2σ) – это диапазон высот в холке, в который входят 95 % собак. 3σ – это 99,7 %.

Вернемся к бозону Хиггса. Уверенность в результате эксперимента обозначается числом, производным от стандартного отклонения и других атрибутов данных. Оно называется p-значением, и объяснить простыми словами, что именно оно собой представляет, весьма нелегко. Если обратиться к статистику, он ответит словесной кашей в таком

1 ... 56 57 58 59 60 61 62 63 64 ... 84
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?