Шрифт:
Интервал:
Закладка:
Я делаю все возможное, чтобы устоять против такого искушения. Но следите за мной внимательно.
Трудно переоценить влияние созданной Гальтоном концепции корреляции на тот концептуальный мир, в котором мы сейчас обитаем, – не только в статистике, но и во всех областях научной деятельности. Следует помнить, что корреляция не подразумевает наличия причинно-следственной связи: в понимании Гальтона два явления могут быть коррелированы между собой, даже если одно не приводит к возникновению другого. Само по себе это не было новостью. Безусловно, люди понимали, что родные братья и сестры чаще других пар людей обладают общими физическими характеристиками, но причина не в том, что сестры становятся высокими под влиянием высоких братьев. Тем не менее даже здесь где-то в тени притаилась причинно-следственная связь: высокий рост обоих детей обусловлен генетическим наследием родителей. В постгальтоновском мире стало возможным говорить о связи между двумя переменными, полностью отрицая существование любой конкретной причинно-следственной связи, прямой или косвенной. Порожденная Гальтоном концептуальная революция имеет нечто общее с выводами его знаменитого родственника, Чарльза Дарвина. Дарвин показал, что можно содержательно рассуждать о прогрессе без всякой необходимости упоминать о цели. Гальтон показал, что можно содержательно рассуждать о связи между явлениями без всякой необходимости упоминать о глубинной причине.
Исходное определение корреляции Гальтона было несколько ограниченным, распространяясь только на те переменные, распределение значений которых подчиняется закону нормального распределения, упоминавшемуся в главе четвертой. Однако Карл Пирсон[274] быстро адаптировал и обобщил эту концепцию так, чтобы ее можно было применять к любым переменным.
Если я написал бы здесь формулу Пирсона или если вы сами нашли бы ее в других источниках, вы увидели бы кучу квадратных корней и коэффициентов, которые не помогли бы вам понять суть этого вопроса, если только не владеете декартовой геометрией. Однако на самом деле формула Пирсона имеет очень простое геометрическое описание. Со времен Декарта математики пользуются замечательной возможностью переходить от алгебраических к геометрическим описаниям мира и наоборот. Преимущество алгебры состоит в том, что ее легче формализовать и ввести в компьютер. Преимущество геометрии в том, что она позволяет нам использовать свою физическую интуицию применительно к соответствующей ситуации, особенно когда можно нарисовать рисунок. У меня редко бывает такое чувство, что я действительно понял ту или иную математическую концепцию, пока не сформулирую все это на языке геометрии.
Так что же такое корреляция с точки зрения геометра? Давайте рассмотрим это на примере. Посмотрите еще раз на представленные выше таблицы, в которых указана средняя январская температура в десяти городах Калифорнии в 2011–2012 годах. Как мы уже видели, между показателями температуры за 2011 и 2012 год есть сильная положительная корреляция; формула Пирсона дает очень высокое значение корреляции в данном случае – 0,989.
Если нам необходимо изучить связь между показателями температуры за два разных года, изменение каждого элемента таблицы на одну и ту же величину не повлечет за собой никаких последствий. Если температура за 2011 год связана с температурой за 2012 год, эта связь сохранится и с показателями «температура за 2012 год + 5 градусов». Вот еще один способ сформулировать эту идею: если взять точки, изображенные на представленной выше диаграмме, и сдвинуть их на десять сантиметров вверх, это не изменит форму эллипса Гальтона, изменится только его местоположение. Как оказалось, полезно изменить значения температуры на одинаковую величину, причем такую, чтобы среднее значение было равным нулю как в 2011, так и в 2012 году. В итоге мы получим такую таблицу.
Отрицательные числа находятся в строках таблицы, соответствующих холодным городам, таким как Траки, а положительные – в строках городов с более мягким климатом, таких как Сан-Диего.
Хитрость вот в чем. Столбец из десяти чисел, соответствующих значениям температуры в январе 2011 года, – да, это ряд чисел. Но это также и точка. Как такое может быть? Все началось с нашего героя – Декарта. Пару чисел (x, y) можно рассматривать как точку на плоскости, которая находится на x единиц направо и y единиц вверх от начала координат. На самом деле мы можем нарисовать небольшую стрелку, указывающую от начала координат к нашей точке (x, y); эта стрелка называется «вектор».
Точно так же точку в трехмерном пространстве описывают три координаты (x, y, z). И ничто, кроме привычки и малодушного страха не мешает нам пойти еще дальше. Группу из четырех координат можно рассматривать как точку в четырехмерном пространстве, а группу из десяти чисел, как показатели температуры в Калифорнии из нашей таблицы, – это точка в десятимерном пространстве. А теперь попытайтесь представить себе десятимерный вектор.
К слову, у вас есть все основания спросить: как я должен себе это представить? Как выглядит десятимерный вектор?
Он выглядит так.
В этом и состоит маленький секрет продвинутой геометрии. Тот факт, что мы можем выполнять геометрические операции в десяти измерениях (или в сотне, или даже в миллионе и т. д.), производит большое впечатление, однако мысленные образы, которые мы храним в своей памяти, являются двумерными или самое большее трехмерными. Это все, с чем может работать наш мозг. К счастью, в большинстве случаев такого ограниченного видения достаточно.
Геометрия высших измерений может показаться недоступной для понимания, особенно учитывая, что мир, в котором мы живем, трехмерный (или четырехмерный, если учитывать время, или, может, двадцатишестимерный, если вы относитесь к числу специалистов по теории струн, но даже в таком случае Вселенная не выходит далеко за пределы этих измерений). Зачем же изучать геометрию, которая не реализована во Вселенной?
Один ответ связан с изучением данных, которые получили в наше время очень широкое распространение. Вспомните цифровую фотографию, сделанную четырехмегапиксельной фотокамерой: ее описание состоит из четырех миллионов чисел, по одному на каждый пиксел. (И это еще без учета цвета!) Следовательно, такое изображение представляет собой вектор с размерностью четыре миллиона, или, если угодно, точку в пространстве четырех миллионов измерений. А изображение, которое меняется со временем, представлено точкой, которая перемещается в пространстве с размерностью четыре миллиона, которая вычерчивает линию в пространстве с размерностью четыре миллиона, и вы не успеете опомниться, как уже будете выполнять исчисление в пространстве с размерностью четыре миллиона, после чего может начаться настоящее веселье.