Шрифт:
Интервал:
Закладка:
Предположения увеличивают риски; оцените риски
При создании аналитического процесса делается много предположений, причем вероятность того, что все они будут абсолютно точными, крайне низка. Полезно оценивать, как изменяются результаты, по мере того как варьируются фактические значения под влиянием предположений в правдоподобном диапазоне. Это позволяет лучше понять сопряженные с анализом риски.
Далеко не всегда все разумные предположения будут приводить к одинаковому ответу. В некоторых ситуациях один набор разумных предположений даст положительный результат, тогда как другой набор – отрицательный. В таких случаях необходимо прийти к согласию относительно заключительного предположения и оценить риски, связанные с возможной ошибкой. Когда разные предположения ведут к разным ответам, разумно использовать для подстраховки наиболее консервативные предположения. Анализ чувствительности для оценки влияния предположений не устраняет риски, а просто позволяет измерить их количественно и лучше их осознать. Хорошим инструментом для такой оценки предположений служит моделирование по методу Монте-Карло.
Как мы увидели во второй главе, хотя затраты на сбор и хранение данных снизились, но по крайней мере столь же быстро растут объемы данных и аналитические потребности организаций. Сегодня существует такое широчайшее разнообразие аналитических возможностей, что порой это приводит в замешательство. Все решения о том, где следует сделать ставки, должны быть основаны на надежном суждении. Причем в отношении больших данных и операционной аналитики оно должно быть не менее надежным, чем в прошлом. Ведь чем больше появляется данных и во все более разнообразных сочетаниях, тем проще пойти по ложному пути. Или же можно наткнуться на ложные корреляции, которые не имеют никакого отношения к реальности.
Например, при построении статистических моделей можно угодить в стандартную ловушку ввиду того, что многие модели устанавливают меру доверия к своим оценкам значений параметров. Общепринятый стандарт требует по крайней мере 99 %-ного уровня доверия к тому, что эффект действительно существует, а не является чисто случайным совпадением. Когда тестируется всего несколько факторов, шансы на успех невелики и, вполне вероятно, что некая абсолютная фальшивка будет признана статистически значимой. Но подумайте о петабайтах сенсорных данных, генерируемых современным самолетом. Возможно, появятся тысячи или даже десятки тысяч метрик, способных коррелировать с такими событиями, как перегрев двигателя. Если при исследовании 20 000 факторов устанавливается уровень доверия в 99 %, то можно ожидать, что 200 совершенно ложных факторов будут признаны статистически значимыми.
Необходимо решить, какие метрики должны быть включены в анализ, чтобы оставить из них только разумные. Но даже после такой фильтрации может остаться множество метрик, которые будут приводить к выявлению ложных эффектов. После построения модели требуется осуществить дополнительный анализ для проверки реальности обнаруженных эффектов. Оценке должен подвергаться весь процесс.
Отличный пример, хорошо иллюстрирующий затронутые в этом разделе темы, связан с компанией Boeing и ее самолетом модели 787. В 2012 г. компания попала в новости из-за проблем с аккумуляторами на 787{67}. Это дорого обошлось ей и в финансовом плане, и с точки зрения ущерба репутации. Во время моего выступления на одной из конференций меня спросили, не считаю ли я, что Boeing облажалась, не сумев исправить проблему с аккумуляторами до выпуска самолета на рынок. Задавший этот вопрос человек считал, что, получив в ходе тестирования все сенсорные данные, компания должна была обнаружить дефект. Я ответил, что не совсем справедливо рассматривать ситуацию под таким углом, поскольку не все так просто. Я предпочитаю считать людей или компании невиновными до тех пор, пока их вина не доказана. Задним числом может казаться, что выявить проблему с аккумуляторами было несложно, но давайте рассмотрим несколько соображений, которые противоречат такой точке зрения.
Во-первых, вполне возможно, что Boeing не собирала таких данных, которые позволили бы выявить конкретную проблему с аккумуляторами. Во-вторых, даже если компания собирала нужные данные во время тестирования, то скорее всего и проанализировала их, но не обнаружила вызывающих тревогу шаблонов. Возможно, проблема возникла только тогда, когда самолет начал эксплуатироваться в реальных условиях. Более того, даже если данные содержали информацию, позволяющую выявить проблему, это вовсе не означает, что компания облажалась. Позвольте мне объяснить, в чем дело.
Не становитесь жертвой суждений задним числом
Когда нужно проанализировать столь много данных по самым разным направлениям, следует, применив здравый смысл, воспользоваться возможностями, способными оказать самое сильное воздействие. Задокументируйте принятие решения с указанием, на чем были сосредоточены усилия, чтобы впоследствии защитить свои действия от суждений задним числом. Найти иголку в стоге сена почти невозможно. Но, когда она обнаружена, ее почти невозможно упустить.
С учетом тех объемов данных, которые генерируются мириадами датчиков на Boeing 787, невозможно исследовать каждую деталь, способную сломаться. На это попросту не хватит времени с точки зрения как рабочей силы, так и вычислительных мощностей. Инженерам и специалистам-аналитикам компании пришлось, исходя из предположений, выбирать, где сосредоточить свои усилия. Безусловно, они изучили области высокого риска. В самолете имеются компоненты, чей отказ может привести к катастрофе, такие как двигатель и шасси. Я уверен, что компания приложила много сил для анализа в этих областях. В то же время не столь страшно, если во время полета перестанет работать кнопка вызова стюардов. Эту поломку легко устранить, и она не несет никакого реального риска для экипажа или пассажиров. Проблема с аккумуляторами находится где-то посередине между этими двумя крайностями. Вполне возможно, что аккумуляторы не были сочтены источником высокого риска, чтобы уделить им пристальное внимание, притом с учетом ограниченности ресурсов и прошлого опыта.
Разумеется, возможно, что Boeing анализировала данные с аккумуляторов, и эти данные позволяли выявить проблему, но компания ее проглядела. Возможно, что Boeing действительно облажалась. Но без дополнительных фактов мы не можем знать об этом наверняка.
Отсюда вытекает урок: по мере того как организация собирает все больше данных и создает все больше аналитических процессов, специалисты-аналитики должны документировать свои процессы принятия решений. Это означает документировать не только то, что анализируется, но и то, что не анализируется и почему не анализируется. Найти иголку в стоге сена будет невозможно, пока кто-нибудь не укажет вам на нее. Но, когда вы узнаете, где находится иголка, то четко ее разглядите. Подобным же образом, когда возникла проблема с аккумуляторами в самолете, было естественным вообразить, что ее следовало выявить заранее. Документирование выбора места для сосредоточения аналитических усилий позволяет смягчить подобную критику задним числом. Проблемы часто не бывают очевидными до тех пор… пока вдруг не станут очевидными просто потому, что они возникли.