Шрифт:
Интервал:
Закладка:
Что можно сказать о ситуации, когда корреляция между двумя переменными все-таки существует? Что это означает на самом деле?
Для упрощения задачи давайте начнем с простейшего типа переменной – бинарной переменной, принимающей только два значения. Во многих случаях бинарная переменная представляет собой ответ на общий вопрос: «Вы состоите в браке?», «Вы курите?», «Вы состоите или когда-либо состояли в коммунистической партии?»
Когда вы сравниваете две бинарные переменные, корреляция принимает особенно простую форму. Например, утверждение, что существует отрицательная корреляция между семейным статусом и курительным статусом, означает только то, что семейные люди курят с меньшей долей вероятности, чем средний человек. Или, если сформулировать это иначе, курильщики вступают в брак с меньшей долей вероятности, чем обычные люди. Придется немного поразмышлять, чтобы убедить себя в том, что это одно и то же! Первое утверждение можно записать в виде такого неравенства:
семейные курильщики / все семейные люди < все курильщики / все люди
Второе утверждение можно записать так:
семейные курильщики / все курильщики < все семейные люди / все люди
Если умножить обе стороны каждого неравенства на общий знаменатель (все люди) × (все курильщики), становится очевидным, что эти два утверждения представляют собой разные способы выразить одну и ту же мысль:
(семейные курильщики) × (все люди) < (все курильщики) × (все семейные люди).
Точно так же, если существовала бы положительная корреляция между курением и вступлением в брак, это означало бы, что семейные люди были бы курильщиками с большей вероятностью, чем средний человек, а курильщики с большей вероятностью состояли бы в браке по сравнению со средним человеком.
Но здесь сразу возникает одна проблема. Безусловно, существует совсем малая вероятность, что доля курильщиков среди семейных людей в точности такая же, что и доля курильщиков во всей численности населения. Следовательно, при отсутствии невероятного совпадения между семейным статусом и курением существует корреляция – положительная или отрицательная. То же самое можно сказать о сексуальной ориентации и курении, о гражданстве США и курении, о принадлежности первой буквы имени ко второй половине алфавита и курении и так далее. Корреляция с курением будет обнаружена во всем, в том или ином направлении. Это та же проблема, с которой мы столкнулись в седьмой главе: нулевая гипотеза, строго говоря, почти всегда является ошибочной.
Если мы разведем руками и скажем: «Все коррелировано со всем!» – это не позволит нам узнать ничего нового. Поэтому мы не сообщаем обо всех без исключения случаях корреляции. Когда вы прочитаете сообщение, что существует корреляция между одним событием и другим, на самом деле подразумевается, что это достаточно сильная корреляция, чтобы о ней стоило говорить. Как правило, речь идет о корреляции, прошедшей проверку статистической значимости. Как мы уже видели, проверка статистической значимости сопряжена со многими опасностями, но она по крайней мере заставляет статистика задуматься и сказать: «Наверное, что-то здесь происходит».
Но что именно? Здесь мы подошли к вопросу, требующему особого внимания. Существует отрицательная корреляция между супружеством и курением, это факт. Как правило, этот факт формулируют следующим образом:
Если вы курильщик, меньше шансов, что вы состоите в браке.
Однако одно небольшое изменение существенно меняет смысл этого утверждения:
Если вы были бы курильщиком, у вас было бы меньше шансов состоять в браке.
На первый взгляд кажется странным, что изменение предложения с изъявительного на сослагательное наклонение может так сильно изменить смысл сказанного. Тем не менее в первом предложении просто говорится о том, что происходит. Второе предложение затрагивает гораздо более тонкий вопрос: что было бы, если мы изменили бы что-то в окружающем мире? Первое предложение выражает корреляцию; второе подразумевает каузальность. Как мы уже говорили, это не одно и то же. Математическое определение корреляции сформировалось еще сто лет назад, после публикации работ Гальтона и Пирсона. Однако постановка идеи каузальности на твердую математическую основу – гораздо более трудная задача[282].
Наше понимание корреляции и каузальности носит неустойчивый характер. Порой интуиция помогает вам уловить суть этих концепций при одних обстоятельствах, но не позволяет сделать это при других. Когда мы говорим, что существует корреляция между ЛПВП и снижением риска сердечно-сосудистых заболеваний, фактически мы утверждаем следующее: «Если у вас более высокий уровень холестерина ЛПВП, у вас с меньшей долей вероятности будет сердечный приступ». Трудно не подумать о том, что ЛПВП что-то делает – что молекулы вещества, о котором идет речь, в буквальном смысле слова служат причиной улучшения здоровья сердечно-сосудистой системы, скажем, «соскабливая» липидные отложения на стенках сосудов. Если бы это действительно было так (то есть если бы одно только наличие большого количества ЛПВП приносило вам пользу), тогда было бы логичным предположить, что любое вмешательство, направленное на повышение уровня ЛПВП, сокращает риск сердечно-сосудистых заболеваний.
Однако корреляция между ЛПВП и сердечно-сосудистыми заболеваниями может быть обусловлена другими причинами – скажем, какой-либо другой фактор, который мы не измерили, приводит и к повышению ЛПВП, и к снижению риска сердечно-сосудистых осложнений. Если это действительно так, тогда препарат, повышающий уровень ЛПВП, может предотвращать или не предотвращать сердечные приступы: если данный препарат воздействует на ЛПВП посредством этого загадочного фактора, тогда это, по всей вероятности, поможет вашему сердцу, но, если он повышает уровень ЛПВП каким-то другим способом, тогда за результат поручиться нельзя. Такая же ситуация и в случае Тима и Сары. Существует корреляция между их финансовыми результатами, но не потому, что фонд Тима способствует повышению курса акций Сары, или наоборот. Причина в том, что существует некий загадочный фактор (акции компании Honda), который влияет на результаты и Тима, и Сары. Клинические исследователи называют это проблемой суррогатной точки клинической эффективности. Проверка воздействия препарата на среднюю продолжительность жизни потребовала бы больших затрат времени и денег, поскольку для того, чтобы определить продолжительность жизни человека, пришлось бы подождать, когда он умрет. Уровень ЛПВП – это и есть суррогатная точка клинической эффективности, легко поддающийся проверке биомаркер, который предположительно равносилен утверждению «долгая жизнь без сердечных приступов». Однако корреляция между ЛПВП и отсутствием сердечно-сосудистых заболеваний может не быть признаком наличия причинно-следственной связи.