Шрифт:
Интервал:
Закладка:
В Америке был интересный казус с репрезентативностью выборки, когда журнал «Литерари Дайджест» опросил аж 10 миллионов человек насчет выборов президента. Это огромное количество респондентов: для достоверной статистики хватило бы 2–3 тысячи правильно собранных ответов. Журнал предсказал победу республиканцу Альфу Лэндону со значительным перевесом (60 на 40), а выборы выиграл демократ Франклин Рузвельт – как раз с таким же перевесом, но в обратную сторону. Дело в том, что большинство подписчиков журнала были республиканцами, а в попытке сгладить это несоответствие журнал рассылал бюллетени по телефонным книгам. Но не учел забавного факта: телефоны тогда были доступны только среднему и высшему классу общества, а это были в основном республиканцы.
9.7. Дисперсия
Пока мы говорили лишь о средствах измерения основной тенденции, но еще нам потребуется средство измерения ее вариативности, иными словами, разброс ее значений. Дисперсия случайной величины – это как она меняется от одного измерения до другого. Обозначается она как σ2, греческая сигма в квадрате. А просто сигма – это так называемое стандартное отклонение. Это корень из дисперсии.
Дисперсия – это сумма квадратов расстояний от каждого результата до среднего результата, деленная на их количество. Квадратов – потому что какие-то результаты отличаются от среднего в меньшую сторону, и чтобы при складывании отрицательных отклонений сумма не уменьшалась, придумали возводить разницу в квадрат и складывать уже квадраты отклонений (которые всегда положительны).
Тут плохо то, что дисперсия размерностью не совпадает с изучаемым явлением. Если мы измеряем сантиметры, то дисперсия окажется в квадратных сантиметрах. Поэтому из нее берут корень. Чтобы не лопнул мозг, вспомним про кубик. Так вот для шестигранника дисперсия получается 2,92 (сами посчитаете? Я вам помогу[39]), ну а корень из этого – 1,71. То есть в среднем у нас выпадает 3,5, но разброс результатов от среднего равен 1,71. Чем больше этот разброс, тем больше квадраты расстояний до среднего, тем больше дисперсия. Чем дисперсия больше, тем сильнее наша случайная величина варьируется.
Оценивать дисперсию всей совокупности по выборке не совсем правильно. Возвращаясь к нашему примеру с деревом, разброс между количеством листьев у выбранных нами веток будет, естественно, меньше, чем у всех веток дерева. Поэтому, чтобы узнать дисперсию всей совокупности, ее делят не на n результатов, а на n-1, это называется коррекция смещения, придумал ее в 19-м веке Фридрих Бессель, ученик Гаусса.
На этом о дисперсии и оценках выборки все. Там есть, конечно, еще куча мелочей, но мы будем говорить о теорвере лишь в контексте инвестиций. Это именно та область, где нам нужен высокий доход, а вот дисперсия совершенно не нужна.
ВЫСОКОЕ МАТОЖИДАНИЕДОХОДА – ДОБРО, А ВЫСОКАЯ ДИСПЕРСИЯ – ЗЛО,ПОТОМУ ЧТО ЭТО РИСК,ТО НЕИЗВЕСТНОСТЬ.
Все финансовые теории в конечном счете стремятся получить высокий доход с минимальным риском.
Жалко, что у них ничего не получается.
9.8. Корреляция, ковариация и регрессия
Еще одна важная концепция – это ковариация. Это показатель того, насколько две переменные движутся вместе. Насколько похоже их поведение? Если эксперимент выдает нам икс и игрек и мы подмечаем, что когда икс высокий, то игрек тоже имеет свойство быть высоким, или наоборот, оба низкие, тогда ковариация будет положительной. Отрицательная ковариация – это когда при высоком икс игрек низкий, и наоборот – то есть они ходят в противоположном направлении.
Пройдем к корреляции. Это ковариация с поправкой на дисперсию наших изменяющихся величин, всегда число от минус одного до плюс одного. Сейчас много кто употребляет этот термин, ну, например, кто-то считает, какая корреляция между результатами ЕГЭ и институтскими оценками чеченских отличников, знаменитых знатоков русского языка. У них, возможно, корреляция меньше нуля, а у всех остальных отличников – больше 0.5.
Корреляция не означает причинности, а лишь отмечает созависимость. Причина ли в том, что одна влияет на другую, или что-то третье на них влияет, – этого мы из одной цифры определить не можем. Если график доллара весной похож на график температуры, не стоит думать, что осенью он повалится обратно. Хотя весной корреляция была.
Теперь регрессия. Это тоже базовая концепция из статистики, но в финансах у нее особенное предназначение. Разрабатывал ее тот же Карл Гаусс, рисуя линии через кучу точек на графике. Если отложить по оси x доходность по годам какой-нибудь компании, например, Майкрософта, а по оси y – доходность рынка, то мы получим много точек, по одной на каждый год.
И вот Гаусс говорит, давайте-ка проведем линию через эти точки. Линию, Карл! Назвал он ее линией регрессии. А провел он ее таким образом, чтобы минимизировать сумму расстояний от точек до этой линии. То есть квадратов расстояний. Чтобы прямая наиболее точно отражала все точки, надо ее провести таким хитроумным образом, чтобы расстояния до нее были минимальны. Эта прямая и называется линией регрессии, в финансах ее пересечение с осью игрек называется альфой, а наклон – бетой. Таким образом, бета акций, например, Майкрософта – это наклон этой линии, а альфа – пересечение. Альфа – насколько бумага обгоняет рынок, а бета – насколько она двигается вместе с рынком. Пока непонятно, но не переживайте; я об этом еще расскажу поподробней.