Шрифт:
Интервал:
Закладка:
Все вышесказанное выглядит как классический пример присутствия темных данных. Потребление калорий не снизилось – просто все выглядело так из-за недостающих или ложных данных. В докладе было предложено пять причин такого занижения показателей, включающих различные DD-типы:
● рост уровня ожирения (поскольку люди с ожирением с большей вероятностью занижают данные о своем потреблении – DD-тип 11: искажения обратной связи и уловки);
● рост желания похудеть (так как это связано с занижением значений при опросе – DD-тип 11: искажения обратной связи и уловки);
● увеличение объема перекусов и приема пищи вне дома (DD-тип 2: данные, о которых мы не знаем, что они отсутствуют);
● снижение частоты ответа при опросах (DD-тип 1: данные, о которых мы знаем, что они отсутствуют, DD-4: самоотбор);
● рост расхождения между справочными данными, используемыми для расчета калорий, и истинными размерами порций и реальной калорийностью пищи (ошибка измерения скрывает истинные значения – DD-тип 10: ошибки измерения и неопределенность).
В отчете «отдела подталкивания» указывается несколько очевидных причин появления темных данных, но во многих ситуациях множественность причин не так очевидна. Кроме того, выискивать причины появления темных данных, чтобы предпринять соответствующие шаги для преодоления рисков, часто бывает непросто.
Первым шагом должно быть осознание того, что темные данные могут присутствовать всегда. Базовое предположение должно заключаться в том, что имеющиеся данные являются неполными или неточными. Самое важное послание этой книги: относитесь к данным с подозрением – по крайней мере пока не будет доказано, что они адекватны и точны.
Также необходимо уметь распознавать ситуации, особенно чреватые проблемами с темными данными, видеть определенные признаки того, что темные данные искажают собранный материал, и реагировать на более общие ситуации, в которых кроется опасность. В книге я попытался облегчить вам эту задачу двумя способами.
Во-первых, это масса примеров, иллюстрирующих пути возникновения темных данных. Они показывают конкретные ситуации, на которые следует обращать внимание. Конечно, ситуации и контексты могут сильно отличаться от показанных в книге, но есть надежда, что приведенные здесь примеры послужат отправной точкой.
Во-вторых, это систематика DD-типов темных данных, представленная в главе 1 и используемая по ходу изложения. Чтобы вам было проще определять эти типы в реальных практических ситуациях, я кратко изложил их далее с примерами для каждого.
Эти DD-типы охватывают «видовое» разнообразие темных данных, так же, как оси координат очерчивают двумерную плоскость графика, но в отличие от осей координат мои DD-типы не претендуют на полный охват пространства темных данных. Не стоит сомневаться в том, что существуют случаи недостающих или искаженных данных, которые не упомянуты в книге. К тому же постоянно появляются и будут появляться все новые типы темных данных со своими особенностями. Так или иначе, предложенная систематизация DD-типов дает своего рода контрольный список опасностей и общих проблем, на которые следует обращать внимание, работая с любым набором данных. И, конечно, всегда необходимо помнить, что обнаружение одного DD-типа не исключает присутствия других.
● DD-тип 1: данные, о которых мы знаем, что они отсутствуют
Это «известные неизвестные» Рамсфелда. Они возникают, когда мы знаем, что в данных есть пробелы, скрывающие значения, которые могли быть записаны. Примером могут служить отсутствующие значения, как во фрагменте маркетинговых данных в табл. 1, или отказ людей из опросного списка отвечать на вопросы частично или полностью. В последнем случае, возможно, все, что мы знаем о респондентах, это их идентификационные данные.
● DD-тип 2: данные, о которых мы не знаем, что они отсутствуют
Это «неизвестные неизвестные» Рамсфелда. Мы даже не знаем, что нам не хватает каких-то данных. Примером может служить веб-опрос, для которого нет списка возможных респондентов, поэтому мы в принципе не знаем, кто отказался его проходить. Катастрофа космического шаттла Challenger была следствием упущения такого рода, поскольку участники телеконференции не осознавали, что им не хватает некоторых данных.
● DD-тип 3: выборочные факты
Плохой набор критериев отбора для включения в выборку или ошибочное применение разумных критериев может привести к искажению выборки. В исследуемую группу могут войти более здоровые пациенты или люди, симпатизирующие той или иной компании. Это происходит, когда из большого числа случаев, осознанно или нет, выбираются «лучшие», чтобы избежать разочарования в будущем – возврат к среднему значению никто не отменял. Аналогично p-хакинг и неспособность учесть несколько гипотез означают, что научные результаты не смогут быть воспроизведены.
● DD-тип 4: самоотбор
Самоотбор является вариантом предыдущих данных DD-тип 3. Он проявляется, когда людям дают право самостоятельно решать, что включать в базу данных, а что нет. Примерами самоотбора являются отсутствующие ответы в опросах, когда респонденты сами выбирают, отвечать им или нет, базы данных пациентов, где пациенты могут отказаться предоставлять свои данные, и в более общем плане – выбор услуг потребителями. Для всех этих примеров возможна ситуация, когда недостающие данные имеют какие-то системные отличия от данных имеющихся.
● DD-тип 5: неизвестный определяющий фактор
Иногда критически важный аспект системы совершенно незаметен. Это может привести к установлению ошибочных причинно-следственных связей, например между увеличением продаж мороженого и засыханием травы. Понятно, что в этом примере в причинно-следственной цепи отсутствуют данные о погоде, но нехватка ключевого звена не всегда бывает столь очевидна. Более проблематичный пример – парадокс Симпсона, в котором общий показатель может увеличиваться, в то время как все составляющие его показатели уменьшаются.
● DD-тип 6: данные, которые могли бы существовать
Контрфактуальные данные – это данные, которые мы бы смогли увидеть, если бы предприняли какие-то другие действия или наблюдали бы за происходящим при других условиях или в иных обстоятельствах. Примером может служить клиническое испытание, в котором все пациенты получают одинаковое лечение – возможно, потому что целью исследования является изучение сроков выздоровления, – и после того, как пациенты вылечены, уже невозможно посмотреть, как подействовало бы на них альтернативное лечение. Другим примером является возраст супруга того, кто даже не женат.
● DD-тип 7: данные, меняющиеся со временем
Время может скрывать данные разными путями. Данные могут перестать соответствовать точному описанию мира, одни факты могут перестать регистрироваться за пределами периода наблюдений, а другие – потому что изменилась их природа, и т. д. Примерами могут служить медицинские исследования интервалов выживания, когда смерть пациента наступила после окончания периода наблюдения, а также данные по населению 20-летней давности, что может иметь сомнительную ценность для разработки текущей государственной политики.