Шрифт:
Интервал:
Закладка:
У дисперсии есть еще одна особенность, которая многих ставит в тупик. (Она не плохая, просто парадоксальная.) Студенты склонны называть набор данных с большим разнообразием величин (например, 1, 2, 3, 4, 5, 6) более «рассредоточенным», чем набор данных с повторяющимися величинами (например, 1, 1, 1, 6, 6, 6). Но дисперсия не заинтересована в «разнообразии»; ее интересует только отклонение от среднего арифметического.
С точки зрения дисперсии разброс второго набора данных (с повторяющимися величинами, отстоящими далеко от среднего арифметического) перевешивает разброс первого набора (где значения не повторяются, но в основном ближе к среднему).
Как вычислить? Корреляция показывает взаимосвязь между двумя переменными. Например, рост и вес человека. Или цена марки автомобиля и объем продаж. Или бюджет фильма и кассовые сборы.
Шкала идет следующим образом: от максимума на 1 («ого, они всегда идут вместе») к середине на 0 («м-да, никакой взаимосвязи») и, наконец, до минимума на –1 («хм, одно исключает другое»).
Однако это очень поверхностный обзор. Как коэффициент корреляции работает на самом деле, рассказано в примечании[147].
Когда использовать? Жители богатых стран счастливее? Решетки на окнах предотвращают преступления? Распитие красного вина продлевает жизнь или просто растягивает вечеринки? Отвечая на все эти вопросы, мы пытаемся выяснить связь между парой переменных, между предполагаемой причиной и следствием. В идеале вы ставите эксперимент и находите ответ. Ежедневно наливайте ста людям красное вино, а другим ста людям — виноградный сок и посмотрите, кто проживет дольше. Однако такое исследование медленное, дорогое и зачастую неэтичное. Можно только посочувствовать беднягам, приговоренным к сухому закону.
Корреляция позволяет ответить на тот же вопрос косвенным образом. Выберите группу людей, измерьте, сколько вина они пьют, узнайте их возраст и посмотрите, живут ли винопийцы дольше. Разумеется, даже сильная корреляция не означает причинно-следственной связи. Может быть, вино продлевает жизнь. Может быть, длинная жизнь побуждает людей пить алкоголь. Может быть, оба фактора вызваны третьей переменной (например, богатые люди живут дольше и могут позволить себе покупать вино). Узнать невозможно.
Даже с учетом этого недостатка изучение коэффициента корреляции — прекрасное начало исследований. Эта методика дешевая, быстрая и позволяет обрабатывать большие массивы данных. Она не может выявить причины точно, но может предложить интригующие гипотезы.
Почему нельзя доверять? Коэффициент корреляции — одна из самых агрессивных статистических величин. Она перемалывает сотни или тысячи пар переменных в одно число от –1 до 1. Неудивительно, что некоторые вещи остаются за бортом. Проиллюстрируем этот факт математическим парадоксом, известным под названием квартет Энскомба.
Переступим порог Энскомбской Академии чародейства и волшебства, где ученики неделями готовятся к экзаменам по четырем дисциплинам: зельеварение, трансфигурация, заклинания и защита от темных искусств. Мы будем учитывать две переменных: оценку ученика (от 0 до 13) на каждом экзамене и количество часов на подготовку к нему.
Глядя на обзорную статистику, вы можете подумать, что результаты по четырем экзаменам одни и те же:
И все же… ну, просто присмотримся. (Каждая точка обозначает ученика.)
Экзамен по зельеварению соответствует моему стереотипу сдачи экзаменов. Длительная подготовка, скорее всего, повысит ваши результаты, но вовсе не обязательно. Вмешивается случайный шум. Таким образом, корреляция равна 0,816.