Шрифт:
Интервал:
Закладка:
Но, даже если некоторые заявления и некорректны, такие данные помогают формулировать гипотезы для проверки. Если мы решили экспериментально подтвердить результаты – на пациентах, которым прописана комбинация лекарственных средств или каждое из них по отдельности, – это может привести к запоздалому выявлению взаимосвязи и, соответственно, риску для большего числа пациентов. Но, если вместо этого использовать другой набор наблюдательных данных – из больниц, – мы выясним в точности, что происходит, когда нуждающиеся в лечении принимают лекарства одновременно.
Именно это и сделали исследователи из Стэнфорда[228]. Взяв сведения по неблагоприятным событиям из базы данных FDA, они обнаружили, что определенный препарат для понижения холестерина в крови и антидепрессант (а именно правастатин и пароксетин) способны при одновременном приеме повышать сахар в крови. Затем, используя больничные карты, ученые сравнили результаты лабораторных тестов пациентов, принимавших лекарства вместе или по отдельности, и выяснили, что сахар в крови повысился гораздо сильнее при совместном приеме препаратов.
Мы не можем знать наверняка, что больные пили предписанные им лекарства; или, возможно, те, кто принимал комбинацию препаратов, чем-то отличались от других. Для подобного вида данных есть немало ограничений, но результаты были подтверждены на основании сведений, полученных из трех разных больниц и после испытаний на мышах[229].
В этом исследовании ученые не отталкивались от гипотезы о возможном взаимодействии медикаментов, а вывели гипотезу на основе данных. Напротив, все работы, которые мы обсуждали до сих пор, предусматривали анализ конкретных каузальных утверждений: к примеру, требовалось определить, действительно ли избыточное потребление сахара провоцирует диабет.
Но если мы не имеем понятия, что вызывает успешные взаимодействия, почему растут повторные поступления пациентов в больницы или что влияет на посещаемость сайтов, то что и когда мы можем узнать из баз данных, таких как обмен сообщениями на сайтах свиданий, клинические медицинские карты или поисковые запросы в Сети?
С помощью комбинации вычислительных возможностей и методов эффективного обнаружения причин на основе данных мы можем перейти от оценки одной причины к интеллектуальному анализу данных, чтобы вскрыть многие каузальные отношения одновременно. Методы автоматизации также помогают выявлять более сложные взаимодействия, чем те, которые человек способен наблюдать непосредственно. К примеру, нам удастся обнаружить последовательность этапов (и каждый включает множество необходимых компонентов), которая приводит к восстановлению сознания у пациентов, перенесших инсульт.
В этой главе мы исследуем методы перехода от данных к причинам. Первое, что нужно обсудить, – вопрос о том, какие сведения пригодны для каузального осмысления. Не каждый набор данных позволяет делать корректные умозаключения, поэтому мы рассмотрим, какие необходимы допущения (чтобы быть уверенными в достоверности результатов) и к каким выводам можно прийти, если допущения не выполняются.
Известно множество методов причинного осмысления, но мы ограничимся двумя основными категориями: теми, в задачу которых входит поиск модели, объясняющей данные (и, в конечном счете, одновременное изучение всех заключенных в ней причинных взаимосвязей), и теми, которые фокусируются на оценке силы каждой индивидуальной взаимосвязи. Главное, что нужно осознать, – нет варианта, который в любой ситуации окажется лучше всех. Хотя в вычислительных методах уже произошел крупный прорыв, эта область по-прежнему открыта для исследований, а проблема абсолютно точного причинного осмысления в отсутствие базового знания для всех случаев без исключения остается нерешенной.
Прежде чем переходить к методам причинного осмысления, нужно дать некоторые вводные сведения. Под термином «причинное осмысление» я имею в виду следующее. Набор измеримых переменных (например, исторические цены на акции) закладывается в компьютерную программу. На основе обработанной информации делается вывод, какие переменные оказались причиной других (к примеру, рост цен на акцию А вызывает рост цен на акцию B). Это может означать выявление силы взаимоотношений в каждой паре переменных или выяснение модели их взаимодействия. Данные могут быть временной последовательностью событий (к примеру, дневные изменения цен на акции) или взятыми на конкретный момент. Во втором случае вариация берется в пределах неких выборок вместо изучения временных изменений. Один из примеров такого рода данных – одномоментное исследование группы, а не экспертное отслеживание отдельных участников в течение долгого времени.
Допущения для различных методов слегка варьируются по критерию используемых данных, однако некоторые свойства оказываются общими практически для всех методов и влияют на любые заключения.
В отсутствие скрытой общей причины
Вероятно, самое важное и универсальное допущение звучит так: все общие причины переменных, зависимости между которыми мы рассматриваем, измеримы. Это также называют причинной достаточностью в методах графических моделей (к ним мы вскоре перейдем).
Если мы, имея набор переменных, хотим найти между ними каузальные зависимости, то должны быть уверены, что уже измерили все общие причины этих переменных. Если истинно утверждение, что кофеин приводит к недосыпанию и повышает давление – и что это единственная взаимосвязь между сном и сердечным ритмом, – то, не измерив потребления кофеина, мы можем сделать некорректные выводы при выявлении отношений между его следствиями. Причины, отсутствующие в наборе данных, называются скрытыми или латентными переменными. Неизмеренные причины двух или более переменных, способных привести к ложным умозаключениям, именуются скрытыми общими причинами или латентными искажающими факторами, а возникающие вследствие этого проблемы называются искажением (что чаще встречается в информационных технологиях и философской литературе) и смещением из-за пропущенных переменных (что более присуще статистике и экономике). Это одно из ключевых ограничений исследований наблюдением, а также вводных данных в вычислительных методах, поскольку приводит как к выявлению ложных взаимосвязей, так и к переоценке силы причин.
Немного изменим этот пример. Кофе напрямую влияет на сон – а теперь он будет влиять на сон и через фактор частоты сердечных сокращений (ЧСС), как на рис. 6.1. Даже если ЧСС служит причиной недосыпа, мы видим, что этот фактор более/менее значим, чем если бы мы не измеряли потребление кофе. То есть, поскольку кофеин вызывает сердцебиение, высокий показатель последнего может дать нам некую информацию о статусе тонизирующего напитка (присутствие/отсутствие). В главе 7 мы увидим, как экспериментальными методами посредством рандомизации[230] можно решать эту проблему.