Шрифт:
Интервал:
Закладка:
болезни сердца: 611 105;
рак: 584 881;
хронические заболевания нижних дыхательных путей: 149 205.
Даже если отбросить тот неприятный факт, что домашние очистители воздуха не сильно защищают от хронических респираторных заболеваний, эти данные не станут убедительным доводом для вашей компании. Вам бы, конечно, хотелось спасать более 100 тысяч жизней в год, но тот факт, что вы сумели справиться с третьей по важности причиной смерти, не сильно поможет вашей рекламной кампании. Хотя постойте! Ведь болезнь сердца — это не одно заболевание, их несколько:
острая ревматическая лихорадка и хроническое ревматическое заболевание сердца: 3260
гипертоническая болезнь сердца: 37 144
острый инфаркт миокарда: 116 793
сердечная недостаточность: 65 120
И так далее. Подобным же образом разбейте на подгруппы виды рака — и дело в шляпе! Заболевания нижних дыхательных путей становятся причиной смерти номер один. И вот вы уже заработали свой бонус. Некоторые производители продуктов питания использовали эту стратегию, чтобы скрыть количество жиров и сахаров, содержащихся в их продуктах.
Помните, во вступлении к этой части книги было написано, что именно люди собирают статистические данные. Это они решают, что считать и как потом быть с результатами. В процессе сбора данных может возникнуть множество ошибок и перекосов, а это, в свою очередь, может привести миллионы людей к неправильным выводам. И хотя большинство из нас никогда не будут собирать данные, научиться критически думать об этом довольно легко и доступно каждому.
Данные получают самыми разными способами: изучая записи (например, касающиеся рождаемости и смерти, предоставленные государственным ведомством, больницей или церковью), проводя исследования и опросы, делая наблюдения (например, считая электрические автомобили, проносящиеся мимо на пересечении Основной улицы с Третьей) или путем умозаключений (если продажи подгузников ползут вверх, значит, вероятно, растет уровень рождаемости). Перекосы, неточности и откровенные ошибки могут появиться на любом этапе. Важно время от времени задаваться вопросами: «А мы и правда можем узнать об этом?» или «Откуда им это известно?»
Астрогеологи собирают образцы камней с лунной поверхности — они не исследуют Луну полностью. Исследователям не нужно разговаривать с каждым конкретным избирателем, чтобы понять, кто из кандидатов выбился в лидеры гонки, или вести подсчет всех, кто заходит в приемный покой, чтобы понять, как долго пациенту приходится ждать приема. Это было бы непрактично и слишком дорого. Специалисты используют выборки и на их основании строят оценки. Если выборки сделаны правильно, то оценка может быть в высшей степени точной. В случае с подсчетом голосов, например, узнать, каковы настроения в стране (а это примерно 234 миллиона человек в возрасте старше 21 года), можно, опросив 1067 человек. Биопсии 1/1000 органа достаточно для диагностирования рака.
Однако надо помнить, что выборка должна быть репрезентативной. А это бывает в случае, когда каждый человек или предмет в изучаемой группе имеет равные шансы быть выбранным. Если это не так, то ваша выборка окажется нерепрезентативной (перекошенной). Если рак обнаружен только в одной части органа, а вы делаете пробы на другой, то он не будет диагностирован. Если же он затронул лишь малую часть органа, а вы взяли 15 проб в этом месте, то вы можете сделать вывод, что весь орган покрыт раковыми клетками, хотя это совсем не так.
Мы не всегда знаем наперед — даже со всеми возможностями биопсии или опросами общественного мнения, — в каком интервале меняется изучаемый показатель. Если бы все элементы в совокупности были одинаковыми, то для выборки было бы достаточно одного из них. Будь у нас множество генетически идентичных людей с одинаковым внутренним миром и жизненным опытом, мы могли бы узнать все что угодно обо всех, просто изучив одного из них. Но каждая группа неоднородна, ее члены отличаются друг от друга, поэтому формировать выборку нужно очень аккуратно, чтобы точно знать, что мы охватили все возможные различия, которые имеют значение (потому что не каждое из них имеет значение). Например, мы знаем: если лишить человека кислорода, он умрет. В этом отношении люди друг от друга не сильно отличаются (хотя и отличаются по времени, которое они могут протянуть без кислорода). Но если я хочу узнать, сколько килограммов человек может поднять в технике жима лежа, начинаются различия — придется измерить показатель у большой группы самых разных людей, чтобы определить диапазон его изменения и стабильное среднее арифметическое. Я бы хотел опросить высоких и низких, полных и худых, мужчин и женщин, детей, бодибилдеров, домоседов, людей, принимающих анаболики, и трезвенников. Есть, наверное, и другие факторы, которые имеют значение, например сколько часов человек спал накануне тестирования, сколько времени прошло с момента последнего приема пищи, в гневе он или спокоен и т. д. Кроме того, есть вещи, которые мы вообще не считаем важными: кто был в тот день авиадиспетчером в аэропорту Сен-Юбер в Квебеке; обслужили ли случайно взятого посетителя в ресторане Абердина в тот день вовремя или нет. Это влияет на другие показатели, которые мы исследуем (латентный сексизм в индустрии авиаперевозок; удовлетворение посетителей в ресторанах Северо-Западного региона), но не на жим лежа.
В задачу статистика входит составление списка того, что имеет значение для получения репрезентативной выборки. Следует избегать наметившейся тенденции, когда переменные выбираются такие, чтобы было легко их идентифицировать или собирать по ним данные, — ведь бывает так, что значимые показатели не очевидны или их сложно измерять. Как говорил Галилео Галилей, следует измерять то, что измеримо, и делать измеримым то, что таковым не является. Некоторые наиболее творческие прорывы в науке оказались возможны потому, что были предложены способы измерить важные показатели, которые раньше измерять не умели.
Однако даже измерение и попытки контролировать переменные, о которых вы знаете, могут стать проблемой. Предположим, вы хотите изучить существующие на данный момент мнения об изменении климата в Соединенных Штатах. Вам выделили небольшую сумму денег, чтобы вы наняли помощников и купили статистическую программу для вашего компьютера. Так случилось, что вы живете в Сан-Франциско и поэтому решаете провести исследование здесь. У вас уже сложности: Сан-Франциско — нерепрезентативный город для всей остальной части Калифорнии, не говоря уже о Соединенных Штатах в целом. Понимая это, вы принимаете решение провести свой опрос в августе, поскольку, по результатам исследований, это самый пик туристического сезона и люди со всей страны едут в Сан-Франциско, так что (думаете вы) вы сможете изучить все многообразие мнений.
Но подождите: можно ли считать тех, кто приедет в Сан-Франциско, репрезентативной выборкой? Ведь вы будете учитывать только людей, которые могут себе позволить поездку, и тех, кто хочет провести свои каникулы в городе, вместо того чтобы, скажем, ехать в национальный парк (может даже случиться так, что вы невольно отдадите предпочтение либералам, так как Сан-Франциско известен своим либерализмом).