Шрифт:
Интервал:
Закладка:
Как бы парадоксально это ни звучало, с помощью бета-распределения можно определить диапазон для доли генеральной совокупности даже при очень малом количестве данных. Оно применимо ко многим ситуациям в области кибербезопасности, в том числе к вероятности возникновения риска, с которым сталкивались лишь немногие организации. У бета-распределения всего два параметра: альфа (α) и бета (β) – сначала они могут показаться абстрактными, но чуть позже мы расскажем о них подробнее. В редакторе Excel распределение записывается формулой =БЕТАРАСП(x;альфа; бета), где x – доля совокупности, которую нужно протестировать. Функция вычисляет вероятность, что доля генеральной совокупности меньше x – мы называем это интегральной функцией плотности (ИФП), поскольку для каждого x она дает накопленную вероятность, что случайная величина будет меньше х.
В Excel также есть обратная функция вероятности для бета-распределения: =БЕТА.ОБР(вероятность; альфа; бета). Она возвращает долю генеральной совокупности, достаточно высокую, чтобы существовала вероятность, что истинная доля совокупности меньше.
Параметры α и β в бета-распределении кажутся абстрактными, и в книгах по статистике редко поясняется, как их понимать. Однако существует конкретный способ их объяснения как числа «попаданий» и «промахов» в выборке. Попаданием в выборке является, скажем, компания, у которой была утечка данных в определенный период времени, а промахом – компания, в которой ее не было.
Чтобы вычислить α и β на основе попаданий и промахов, необходимо определить априорную вероятность. Опять же, информативная априорная вероятность может быть просто откалиброванной оценкой эксперта по данной проблеме. Если же нам нужна предельно осторожная оценка, можно использовать неинформативную априорную вероятность и просто оставить равномерное распределение от 0 до 100 %. Это можно сделать с помощью бета-распределения, задав значения α и β, равные 1. Такой подход указывает на то, что у нас нет почти никакой информации об истинной доле генеральной совокупности. Потому это «неинформативное» априорное распределение. Нам известно лишь математическое ограничение, что доля генеральной совокупности не может быть меньше 0 % и не может превышать 100 %. В остальном мы просто говорим, что все значения между ними одинаково вероятны, как показано на рис. 9.1.
Рис. 9.1. Равномерное распределение (бета-распределение, в котором α = β = 1)
Обратите внимание, что на рисунке равномерное распределение представлено в более привычном виде «функции плотности распределения вероятности (ФПР)», где площадь под кривой равна 1. Так как функция БЕТАРАСП является интегральной вероятностью, необходимо создать несколько уровней приращения, вычисляя разницу между двумя интегральными функциями плотности, близкими друг к другу. Просто представьте, что высота точки на ФПР обозначает относительную вероятность по сравнению с другими точками. Напомним, что у нормального распределения максимум приходится на середину, т. е. значения вблизи середины нормального распределения более вероятны. В представленном же случае равномерного распределения мы показываем, что все значения между минимумом и максимумом равновероятны (т. е. оно плоское).
Теперь, если у нас есть выборка из некоторой совокупности, пусть даже очень маленькая, можно обновить параметры α и β, указав число попаданий и промахов. Для выполнения расчетов на сайте www.howtomeasureanything.com/cybersecurity доступна электронная таблица с бета-распределением. Снова рассмотрим случай, когда необходимо оценить долю пользователей, соблюдающих некие процедуры безопасности. Отобрав случайным образом шесть пользователей, обнаруживаем, что только один из них делает все правильно. Давайте назовем его «попаданием», а остальных пятерых – «промахами». Добавив попадания к априорному значению α, а промахи – к априорному значению β, получаем:
= БЕТАРАСП(x; априорное α + попадания; априорное β + промахи).
На рис. 9.2 показано, как будет выглядеть ФПР, если добавить выборку из шести объектов с одним попаданием в наше исходное равномерное распределение. Для построения такого изображения можно воспользоваться следующей формулой:
= БЕТАРАСП(x + i/2; априорное α + попадания; априорное β + промахи) – БЕТАРАСП(x – i/2; априорное α + попадания; априорное β + промахи),
где i – размер используемого приращения (размер увеличения произвольный, но чем меньше его сделать, тем точнее будут изображения распределений). Если вам что-то непонятно, изучите пример в электронной таблице.
Рис. 9.2. Распределение, начинающееся с априорного равномерного и обновленное данными выборки с 1 попаданием и 5 промахами
Как так получается в бета-распределении? Не противоречит ли это тому, что рассказывают в базовом университетском курсе статистики о размерах выборки? Нет. С расчетами все в порядке. По сути, в бета-распределении к диапазону возможных значений применяется формула Байеса. Чтобы понять, как это работает, рассмотрим вопрос попроще, например: какова вероятность того, что в выборке из шести объектов будет 1 попадание, если только 1 % совокупности выполняет процедуру правильно? Раз предполагается, что нам известна доля генеральной совокупности, и нужно вычислить вероятность получения именно такого количества «попаданий» в выборке, следует применить так называемое биномиальное распределение. Биномиальное распределение – своего рода дополнение к бета-распределению. В первом случае оценивается вероятность различных результатов выборки с учетом доли генеральной совокупности, а во втором случае – доля генеральной совокупности с учетом количества результатов в выборке. В Excel биномиальное распределение записывается как =БИНОМРАСП(число_успехов; число_испытаний; вероятность успеха;0), где «0» означает, что будет получена вероятность конкретного результата, а не накопленная вероятность до определенного уровня.
Это позволяет нам получить наблюдаемый результат (например, 1 из 6) для одной возможной доли генеральной совокупности (в данном случае 1 %). Расчеты повторяются для гипотетической доли совокупности, равной 2, 3 и т. д. до 100 %. Теперь с помощью формулы Байеса можно перевернуть данные, чтобы получить сведения, которые на самом деле нас интересуют: какова вероятность, что X является долей генеральной совокупности, учитывая, что у нас 1 попадание из 6? Другими словами, биномиальное распределение дает