litbaza книги онлайнРазная литератураКак оценить риски в кибербезопасности. Лучшие инструменты и практики - Ричард Сирсен

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 52 53 54 55 56 57 58 59 60 ... 92
Перейти на страницу:
ли придется. Важно отметить, что любая интерпретация – исключительно семантическая и не является результатом математического обоснования или эмпирического наблюдения, истинность или ложность которого можно было бы доказать. Вот почему они называются лишь «интерпретациями», а не «теоремами» или «законами».

Однако между этими двумя интерпретациями существует прагматическое, измеримое, реальное различие: студенты считают фреквентистскую интерпретацию гораздо более запутанной. Некоторые преподаватели статистики прекрасно это понимают и поэтому обучают как субъективистской, так и фреквентистской интерпретации. Как и большинство ученых, занимающихся вопросами принятия решений, мы будем исходить из того, что 90 %-ный доверительный интервал с вероятностью 90 % содержит истинное значение (благодаря чему не придется сталкиваться с математическим парадоксом).

Эффект калибровки

Один из авторов, Хаббард, с 1995 года начал заниматься калибровкой и сбором данных о том, насколько хорошо люди справляются с тестами из вопросов общей тематики и насколько верно откалиброванные специалисты оценивают неопределенность в реальной жизни. Для этого их оценки сравнивались с фактическими результатами после наступления оцениваемых событий. Методы калибровки и тесты постепенно эволюционировали, но после 2001 года выработанный подход в целом не изменялся. С тех пор Хаббард и его команда в компании Hubbard Decision Research обучили более 1000 человек методам калибровки и задокументировали их успехи: ожидаемые и фактические результаты нескольких калибровочных тестов, проводимых один за другим во время семинаров.

Собранные таким образом сведения позволили лучше понять обобщенные данные, часто публикуемые в различных рецензируемых научных изданиях. Академические исследования обычно показывают агрегированные результаты всех участников исследования, поэтому можно видеть только среднее значение по группе. Объединив таким же образом показатели участников семинаров, Хаббард получил результаты, очень схожие с данными таких академических исследований. Однако, имея возможность отделить данные по каждому испытуемому, он выявил еще один интересный феномен. Хаббард заметил, что большинство людей к концу обучения добиваются превосходных результатов, а средний показатель снижается из-за нескольких человек, показывающих плохой результат.

Чтобы определить, кто из испытуемых откалиброван, следует допускать некоторое отклонение от идеала даже для полностью откалиброванного человека. Кроме того, некалиброванному участнику может повезти. С учетом этой статистической ошибки 80 % участников оказываются идеально откалиброваны уже после пятого упражнения. Они не склонны ни к недостаточной уверенности, ни к чрезмерной уверенности. Их 90 %-ные ДИ с вероятностью около 90 % содержат правильный ответ.

Еще 10 % участников демонстрируют значительное улучшение, но не достигают идеальной калибровки. А 10 % вообще не показывают каких-либо улучшений по сравнению с первым выполненным тестом[9]. Анализ выявил наличие среди испытуемых групп с различной результативностью, что не соответствует модели, согласно которой все участники изначально слегка неоткалиброваны. Последнюю группу нельзя объяснить случайным набором неудачливых участников, а те, кто был откалиброван, не могут быть просто удачливым, но неоткалиброванным большинством. Почему около 10 % людей, видимо, вообще не способны улучшить свои результаты в процессе обучения калибровке? Какова бы ни была причина, она не так уж и важна. Все, на кого мы когда-либо полагались в фактических оценках, относились к первым двум группам, и почти все они были в первой, идеально откалиброванной, группе. Среди тех, кто, казалось, сопротивлялся любым попыткам калибровки даже до тестирования, никогда не было компетентных экспертов или специалистов, принимающих решения по конкретным вопросам. Возможно, они были менее мотивированы, зная, что их мнение не будет иметь большого веса. А может, люди, не имеющие склонности к таким задачам, просто не стремятся совершенствоваться до уровня, необходимого для выполнения подобных оценок. В любом случае это ни на что не влияет.

Как видно, для большинства людей занятия оказываются очень эффективными. Но отражают ли успехи на занятиях способность оценивать вероятность неопределенности в реальной жизни? Ответ – однозначно да. Хаббард постоянно отслеживал, как хорошо откалиброванные специалисты действуют в реальных ситуациях, однако один контролируемый эксперимент, проведенный в сфере IT, до сих пор выделяется среди остальных. В 1997 году Хаббарда попросили научить аналитиков консалтинговой компании Giga Information Group (впоследствии была приобретена Forrester Research, Inc.) определять вероятность наступления неопределенных событий в будущем. Giga занималась исследованиями в области информационных технологий и предоставляла свои исследования другим компаниям по подписке. В компании был принят метод определения вероятности наступления событий, прогнозируемых для клиентов, и в ней хотели убедиться, что он будет успешно функционировать.

Хаббард обучил 16 аналитиков компании Giga с помощью описанных ранее методов. В конце обучения аналитики получили 20 конкретных прогнозов, касающихся IT-индустрии, которые необходимо было разделить на истинные или ложные и определить вероятность их наступления. Тест проводился в январе 1997 года, а все вопросы касались событий, которые могли бы произойти к 1 июня 1997 года (например, «верно или неверно, что компания Intel выпустит процессор Pentium с тактовой частотой 300 МГц к 1 июня» и т. п.). В качестве контрольной группы выступали 16 директоров по IT различных организаций из числа клиентов Giga, которым был предоставлен тот же список прогнозов. После 1 июня стало возможным определить фактические результаты. Хаббард представил свои выводы на Giga World 1997 – главном симпозиуме в IT-индустрии того года. Итоги эксперимента приведены на рис. 7.3. Обратите внимание, что некоторые участники не ответили на часть вопросов, поэтому сумма ответов в каждой группе меньше 320 (16 испытуемых по 20 вопросов на каждого).

Горизонтальная ось – указанная участниками вероятность того, что прогноз по конкретному вопросу окажется верным. Вертикальная ось показывает, сколько прогнозов оказались верными на самом деле.

Рис. 7.3. Результаты калибровочного эксперимента для 20 прогнозов развития IT-индустрии в 1997 году. Источник: Hubbard Decision Research

Ответы идеально откалиброванного человека должны быть расположены вдоль пунктирной линии, означающей, что человек был прав в 70 % случаев, когда был на 70 % уверен в своих прогнозах, прав в 80 % случаев, когда был уверен на 80 %, и т. д. Видно, что результаты аналитиков (где точки обозначены маленькими квадратами) очень близки к идеальной уверенности и легко укладываются в допустимую погрешность. Сильнее всего результаты отклоняются от идеальной калибровки в нижней части графика, но и тут они все еще находятся в допустимых пределах погрешности (диапазон допустимых ошибок шире в левой части графика и сужается до нуля в

1 ... 52 53 54 55 56 57 58 59 60 ... 92
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?