Шрифт:
Интервал:
Закладка:
Возьмем, к примеру, семейный заработок[144]. В США богатая семья может зарабатывать в десятки (даже в сотни) раз больше, чем бедная. Вычисляя среднее арифметическое, мы исходим из того, что каждой семье достается равная доля совокупных доходов, и впадаем в искушение закрыть глаза на разброс величин и оказаться далеко от основного объема значений. В среднем семейный доход в США составляет около $75 000.
Медиана не поддается притяжению крупных величин. Вместо этого она показывает идеальную среднюю точку, доход семьи, которая богаче половины американских семей и беднее другой половины. В США это около $58 000. В отличие от среднего арифметического, это число дает ясную картину среднестатистической семьи.
Почему нельзя доверять? Вычислив медиану, вы знаете, что половина данных больше, а половина меньше. Но насколько далеко отстоят эти точки? На толщину волоса или на длину трансконтинентального полета? Вы видите только один кусок пирога, не понимая, насколько велики или малы другие. Это может ввести в заблуждение.
Когда венчурный капиталист инвестирует в новые фирмы, он исходит из того, что по большей части все они прогорят. Одно попадание в яблочко из десяти компенсирует все мелкие потери. Но медиана не учитывает эту динамику. «Типичный исход отрицательный, — вопит она. — Отменяем миссию!»
В то же время страховая компания тщательно наполняет портфель, зная, что стихийное бедствие с вероятностью 1 к 1000 сведет на нет всю скромную прибыль, накопленную за годы. Но медиана не учитывает потенциальную опасность. «Эй, типичный результат положительный, — подбадривает она. — Полный вперед!»
Вот почему вместе со средним арифметическим часто указывают медиану. Медиана рапортует о типичной величине; среднее арифметическое — обо всей совокупности величин. Они словно два ненадежных свидетеля: по отдельности их рассказы неполны, но, выслушав их вместе, мы можем восстановить более цельную картину.
Как вычислить? Мода — наиболее часто встречающийся элемент, самый стильный, самый популярный во всем наборе данных. Как быть, если все элементы различны? В этом случае вы можете сгруппировать данные по категориям и назвать самую частую из них «модальной категорией».
Когда использовать? Этот метод используют в социологических опросах и анализе нечисловых данных. Если вы хотите узнать любимый цвет людей, вы не сможете «сложить и поделить» их, чтобы вычислить среднее арифметическое. Или, допустим, вы проводите выборы; граждане сойдут с ума, если вы упорядочите голоса от наиболее либеральных к наиболее консервативным и присудите победу кандидату, за которого отдан медианный бюллетень.
Почему нельзя доверять? Медиана не учитывает суммарное значение. Среднее арифметическое не учитывает, как оно распределено. А мода? Ну, она игнорирует и суммарное значение, и то, как оно распределено, и почти все прочее.
Наиболее распространенное не означает показательное. Модальная зарплата в Соединенных Штатах равна нулю — не потому, что большинство американцев безработные и нищие, а потому, что зарплаты наемных работников разбросаны по всему спектру от одного доллара до $100 млн, в то время как все безработные получают одинаково — ноль. Этот статистический показатель никак не характеризует США. Так обстоят дела почти во всех странах, в этом особенность капитализма.
Метод модальной категории лишь частично устраняет проблему. Он дает ошеломляющую власть человеку, который сообщает данные: он может ловко перекроить границы категорий в соответствии со своей повесткой дня. В зависимости от того, какие интервалы я выберу, можно утверждать, что модальная американская семья зарабатывает от $10 000 до $20 000 (если взять интервалы размером 10 000), или от $20 000 до $40 000 (интервалы по $20 000), или от $38 000 до $92 000 (если идти по ступеням налоговой шкалы). Один и тот же набор данных, один и тот же метод. И все же портрет полностью преображается — все зависит от рамки, которую выбрал художник.
Как вычислить? Напоминаю, что медиана находится ровно посередине упорядоченного ряда данных. А перцентиль — это медиана с регулятором. 50-й перцентиль — это сама медиана (половина величин больше, половина меньше). Но вы можете выбрать и другие перцентили. 90-й перцентиль на самой верхотуре: всего лишь 10 % величин больше, а 90 % величин меньше. В свою очередь, 3-й перцентиль почти на дне: 3 % величин меньше, 97 % больше.
Когда использовать? Метод перцентилей удобный и гибкий, он идеально подходит для нашего любимого времяпрепровождения — выстраивания рейтингов. Вот почему стандартные тесты часто дают оценки в перцентилях. Сырые данные не слишком информативны. Например, «я ответил верно на 72 % вопросов». Но сколько среди них головоломных и сколько легких? В то же время «я на 80-м перцентиле» в точности показывает ваш результат. Вы лучше 80 % испытуемых и хуже 20 %.
Почему нельзя доверять? У перцентилей та же ахиллесова пята, что и у медианы. Вы знаете, сколько величин больше или меньше определенного значения, но не знаете насколько. Возьмем, к примеру, финансовый сектор, где перцентили используются для оценки потерь от инвестиций. Вначале вы прикидываете разброс потенциальных результатов, от триумфа до краха, а затем выбираете перцентиль (обычно 5-й) и называете его «стоимость под риском», или VaR (Value at Risk). Он показывает наихудший сценарий. По сути дела, хуже будет ровно 5 % вариантов развития событий. VaR ничего не говорит о том, насколько хуже. Он не учитывает, сколько вы потеряете в 5 % случаев — несколько центов или миллиарды долларов. Возможно, вы будете лучше представлять себе пространство возможностей, если узнаете другие перцентили (например, 3-й, 1-й и 0,1-й), но этот метод по определению не показывает самые крупные и болезненные убытки, поэтому худший сценарий всегда будет оставаться вне зоны видимости.