Шрифт:
Интервал:
Закладка:
Рис. 7.3 отражает некоторые очевидные особенности. Первая и, возможно, самая примечательная – исчезновение практически всех следов асимметрии исходных выборок: распределения для оценок, основанных на данных из повторных выборок, почти симметричны относительно среднего в исходных данных. Это следствие центральной предельной теоремы, которая гласит, что распределение выборочных средних по мере увеличения размера выборки сходится к нормальному распределению – практически вне зависимости от формы исходного распределения данных. Этот важнейший результат мы рассмотрим в главе 9.
Важно отметить, что эти бутстрэп-распределения позволяют количественно выразить нашу неопределенность в оценках, показанных в табл. 7.1. Например, мы можем найти диапазон, который будет содержать 95 % средних в бутстрэп-выборках, и назвать его 95-процентным интервалом неопределенности для исходных характеристик, или погрешностью. Соответствующие интервалы показаны в табл. 7.2 – симметрия бутстрэп-распределений означает, что интервалы неопределенности расположены примерно симметрично вокруг исходной оценки.
Таблица 7.2
Выборочные средние для числа сексуальных партнеров за всю жизнь, указанного мужчинами в возрасте 35–44 лет в исследовании Natsal 3, для вложенных выборок размера 10, 50, 200 и полных данных о 760 мужчинах, с 95-процентными интервалами неопределенности, также называемыми погрешностями
Вторая важная особенность рис. 7.3 – сужение бутстрэп-распределений по мере роста выборки, что отражено в постепенном уменьшении размера 95-процентных интервалов неопределенности.
В этом разделе вы познакомились с некоторыми сложными, но важными идеями:
• разброс в статистиках, основанных на выборках;
• бутстрэппинг данных, когда мы не хотим делать предположения о форме распределения в генеральной совокупности;
• тот факт, что форма распределения статистики не зависит от формы исходного распределения, из которого взяты наблюдения.
Весьма примечательно, что всего это мы достигли без помощи математики, за исключением идеи брать наблюдения случайным образом.
Теперь я покажу, что бутстрэппинг можно применять и в более сложных ситуациях.
В главе 5 мы проводили линии регрессии для данных Гальтона о росте, что позволяло предсказывать, например, рост дочерей на основе роста их матерей с помощью регрессионной прямой с угловым коэффициентом 0,33 (см. табл. 5.2). Но насколько мы можем быть уверены в положении такой прямой? Бутстрэппинг предоставляет интуитивно понятный способ ответить на этот вопрос, не делая никаких предположений о генеральной совокупности, из которой взяты наблюдения.
Составим из 433 пар дочь/мать (рис. 7.4) повторную выборку из 433 элементов (с возвратом) и построим для нее прямую наилучшего соответствия по методу наименьших квадратов. Повторим процедуру столько раз, сколько считаем нужным: рис. 7.4 показывает построенные всего по 20 таким перевыборкам линии наилучшего соответствия, чтобы продемонстрировать их разброс. Поскольку исходный набор данных велик, разброс у этих прямых относительно небольшой – при 1000 бутстрэп-выборках угловой коэффициент с вероятностью 95 % лежит в интервале от 0,22 до 0,44.
Рис. 7.4
Регрессионные прямые для 20 перевыборок из данных Гальтона о росте матерей и дочерей, наложенные на исходные данные. Из-за большого размера выборки угловой коэффициент прямых изменяется относительно слабо
Бутстрэппинг обеспечивает интуитивно понятный, удобный для использования компьютера способ выразить неопределенность в оценках, не делая сильных предположений и не используя теорию вероятностей. Однако этот метод неэффективен, когда нужно найти, например, погрешность в опросе 100 тысяч человек о безработице. Хотя бутстрэппинг – простая, блестящая и крайне эффективная идея, перерабатывать с его помощью такие огромные объемы данных неудобно, особенно при наличии теории, которая может предоставить готовые формулы для величины интервалов неопределенности. Но прежде чем мы ее рассмотрим в главе 9, познакомимся с восхитительной, хотя и непростой теорией вероятностей.
Выводы
• Интервалы неопределенности – важная часть информации о характеристиках выборки.
• Бутстрэппинг – это метод создания из первоначальной выборки новых наборов данных одинакового размера посредством перевыборок с возвратом.
• Выборочные характеристики, вычисленные с помощью бутстрэп-выборок, для больших наборов данных близки к нормальному распределению – независимо от формы исходного распределения данных.
• Интервалы неопределенности, построенные с помощью бутстрэппинга, используют вычислительные мощности современных компьютеров, не требуют предположений о математическом виде генеральной совокупности и сложной теории вероятностей.
В 1650-х годах самозваный шевалье[156] де Мере столкнулся во время игры с дилеммой. Не то чтобы он был уж слишком азартным игроком (хотя играл довольно увлеченно), но тем не менее хотел знать, в какой из двух игр у него больше шансов на победу.
Вариант 1. Правильная игральная кость бросается четыре раза, игрок побеждает, если хотя бы раз выпадает шестерка.
Вариант 2. Пара правильных игральных костей бросается 24 раза, игрок побеждает, если хотя бы раз выпадает пара шестерок.
На что выгоднее поставить?
В соответствии с эмпирическими статистическими принципами шевалье де Мере решил сыграть в обе игры много раз и посмотреть, насколько часто он выигрывает. Это потребовало немало времени и усилий, но в причудливой параллельной вселенной, где были компьютеры, но не было теории вероятностей, шевалье не потратил бы столько времени на сбор данных, а просто смоделировал бы тысячи игр.
На рис. 8.1 представлены результаты такого моделирования – доля побед по мере увеличения количества прохождений игр. Хотя какое-то время Вариант 2 кажется выгоднее, примерно после 400 игр становится ясно, что Вариант 1 лучше и что в (очень) долгосрочной перспективе шевалье может рассчитывать на победу примерно в 52 % игр для Варианта 1 и только 49 % игр для Варианта 2.