Шрифт:
Интервал:
Закладка:
В газете USA Today за июль 2015 года сообщалось, что уровень безработицы упал до 5,3 % и что это был «самый низкий уровень начиная с апреля 2008 года»[56]. Более компетентные источники, включающие агентство Associated Press, журнал Forbes и газету New York Times, называли свою причину очевидного снижения: многие безработные просто бросили попытки найти работу и потому чисто технически уже не могли считаться рабочей силой[57].
Объединение выборок, однако, не всегда приводит к неверным выводам. Вы можете объединить результаты учеников школы обоих полов, особенно если нет никаких доказательств того, что эти результаты на самом деле разные. Таким образом вы можете увеличить размер выборки (и получить более устойчивую оценку того, что изучаете). Интерпретацию затрудняют только слишком широкое определение категории (как в случае с сексуальной активностью школьников, о которой мы говорили ранее) или противоречивые определения (как с парами, живущими вместе). Если объединить выборки правильно, это поможет сделать правильный анализ данных.
Предположим, вы работаете в штате Юта. Один крупный производитель детской одежды подумывает о том, чтобы переехать в ваш штат. И вам в голову приходит мысль указать ему на высокий уровень рождаемости в Юте. Таким образом вы рассчитываете привлечь его внимание. Для этого вы заходите на сайт Census.gov и размещаете сведения о рождаемости:
Юта выглядит лучше, чем Аляска, Вашингтон, Монтана, Вайоминг, Северная и Южная Дакота и небольшие штаты Северо-Востока. Но вряд ли можно сказать, что количество рождений там зашкаливает, особенно по сравнению с Калифорнией, Техасом, Флоридой и Нью-Йорком. Но погодите-ка, та карта, которую вы составили, показывает общее число рождений, а оно обязательно тем больше, чем больше население штата. Вместо этого вы могли бы составить карту с количеством новорожденных на тысячу жителей:
Это не помогает. Юта выглядит так же, как и остальные штаты. Что же делать? Поменяйте цвет! Вы можете поиграть с количеством величин в каждой категории — я имею в виду те полоски в самом низу, от серого до совсем черного. Удостоверившись, что уровень рождаемости Юты отображен отдельной категорией, вы заставите эти данные выделяться на фоне остальных.
Конечно, это стало возможно только потому, что у штата Юта действительно самый высокий уровень рождаемости — ненамного, но все же. Выбрав для него «корзину» отдельного цвета, вы заставили его выделяться.
Если бы вы захотели сделать то же самое с остальными штатами, вам пришлось бы прибегнуть к трюкам иного рода, например показать, сколько детей рождается на квадратную милю или на магазин сети Walmart, — и таким образом получить функцию от чистого дохода. Дайте волю фантазии, прикиньте разные варианты — и вы cможете привести аргументы в пользу любого из 50 штатов.
А как же правильно изобразить такие данные? Это вопрос спорный, но, пожалуй, одним из нейтральных способов будет объединение данных так, чтобы по 20 % штатов попали в одну из пяти категорий, каждая из которых отмечена своим цветом:
Другой вариант — сделать «корзины» одинакового размера:
Такой вид статистического обмана — использование категорий разных размеров на всех картограммах, кроме последней, — часто появляется в гистограммах. На приведенной ниже диаграмме показан средний процент числа подач 50 лучших игроков Главной лиги бейсбола в сезоне 2015 года[58]:
Итак, предположим, что вы игрок, средний коэффициент результативности отбивания которого равен 0,330, — и этот факт определяет вас во вторую по высоте категорию. Настало время раздачи бонусов, и вы не хотите, чтобы у вашего руководства нашлись хоть какие-нибудь причины отказать вам в премии в этом году, — вы уже купили Tesla. Поэтому просто измените ширину «корзин», объединив свои результаты с результатами двух игроков, чей коэффициент результативности равен 0,337, — и вот вы уже среди лучших игроков. Сомкните строй столбцов (в «корзине» 0,327 больше нет бэттеров), сделав разрыв оси X, который могут заметить лишь немногие.
В противоположность объединению выборок можно использовать разделение на группы, чтобы заставить кого-то поверить в то, чего на самом деле нет. Чтобы, например, заявить, что X — это главная причина Y, мне нужно просто разделить все остальные причины на более мелкие подгруппы.
Предположим, вы производите очистители воздуха и проводите кампанию, чтобы доказать, что респираторные заболевания — основная причина смерти в Соединенных Штатах, значительно превосходящая по частоте, например, заболевания сердечно-сосудистой системы или рак. Если говорить честно, то на сегодняшний день основная причина смерти в США — болезни сердца. По данным Центров по контролю и профилактике заболеваний в стране в 2013 году смерть в основном наступала по следующим причинам[59]: