Шрифт:
Интервал:
Закладка:
Точно так же есть множество мер причинной значимости для расстановки приоритетов в рамках различных свойств.
Для решения некоторых задач машинного обучения, таких как оптимизация, существует набор теорем под названием «Бесплатных обедов не бывает» (TANSTAAFL[433]). То есть если метод заточен под один тип проблем, с другими он будет работать хуже, и ни один нельзя назвать наилучшим для всех[434]. Это означает, что нереально провести оптимизацию для устранения всех проблем. Нет способа улучшить одно, не заплатив за это чем-то другим. В этом заключается некоторая трудность, поскольку, начав работу с новой проблемой, мы не знаем, какой метод применить.
Но мы не всегда приступаем к работе, не имея в багаже совсем никаких знаний. Если хоть что-то известно о поставленной проблеме и о том, на какой компромисс мы готовы пойти (к примеру, принять больше ложноотрицательных результатов, чтобы сократить количество ложноположительных), то не понадобится «лучший» метод – просто надо знать, как выбрать один из способов решения конкретной задачи.
Например, если я хочу оценить, действительно ли информация о калорийности блюд в ресторанах привела к снижению потребления калорий в отдельном городе, это будет вопрос из области конкретной каузальности, поэтому здесь лучше применить контрфактуальный подход, а не причинность по Грэнджеру. С другой стороны, если у меня есть данные шагомера и подключенных к Сети весов, а также информация о полученных калориях и мне нужно спрогнозировать вес, исходя из своих привычек в еде и отношения к физическим упражнениям, придется задавать другие вопросы и применять иной подход. Здесь хорошим выбором может стать байесовская сеть, так как она лучше прогнозирует вероятные значения переменной, исходя из показателей других объектов сети. Но, если бы я хотела узнать, как быстро после интенсивных занятий поднимется уровень сахара в крови, этот метод вряд ли подойдет. Вместо него стоит выбрать тот, который позволит узнать о временном паттерне этой зависимости на основе имеющихся данных.
Главное – причинность скрывает немало того, о чем нам пока неизвестно, и, адаптируя существующие методы под текущие задачи, мы загоняем себя в узкие рамки, упуская важные открытия.
С появлением новых и лучших методов выявления причин и прогнозирования будущих событий растет искушение автоматизировать все больше процессов, постепенно устраняя из цепочки человеческий фактор. Люди предвзяты, иррациональны и непредсказуемы, а компьютерные программы неуклонно ведут себя одинаково, каждый раз получая одинаковые вводные. Пока, однако, человеческие знания и суждения необходимы на каждом этапе: мы решаем, какие сведения собирать, подготавливаем их, выбираем метод анализа, интерпретируем результаты и, исходя из этого, определяем, как действовать.
Мы уже видели, как уводит в сторону поиск «черного ящика», который безукоризненно выполняет весь процесс от ввода «сырых» данных до причин на выходе, без ошибок и человеческого вмешательства. Но столь же неверно использовать причины аналогичным способом, исключающим человеческие суждения.
Если компания рекламирует продукт, который вам неинтересен, или сайт рекомендует фильм, который вам не нравится, стоимость ошибок в выборе не слишком велика. Но в массе иных случаев, таких как неправильное осуждение Салли Кларк или некорректное употребление каузальности, это приводит к очень серьезным последствиям. Возможно, мы слишком доверяем причинно-следственным выводам в одном сценарии, а в другом использованный алгоритм слишком зависит от общих знаний и не принимает в расчет специфику конкретной ситуации.
Когда доктор говорит, что у вас высокое давление и с этим нужно что-то делать, вы вряд ли обрадуетесь, если он слепо последует шаблонным инструкциям. Конечно, вы захотите, чтобы он принял в расчет другие лекарства, которые вы принимаете (и которые могут взаимодействовать с препаратами, снижающими давление), ваши предпочтения и задачи относительно терапии. Результат, возможно, не будет наилучшим с точки зрения общих рекомендаций по коррекции гипертензии, однако окажется оптимальным именно для вас. Дело в том, что высокое артериальное давление имеет серьезные последствия для состояния организма, но его снижение не единственная задача, и решать ее нужно в контексте других целей. Возможно, вы принимаете лекарства, которые взаимодействуют с предлагаемыми медикаментами, больше подходят для ежедневного приема, а не других временных интервалов[435] или имеют ограничения, не вписывающиеся в вашу медицинскую страховку.
Поскольку на основании известной зависимости на уровне типа мы не можем сделать вывод, что некая вещь служит токен-причиной, информацию на уровне типа не следует использовать, чтобы принимать решения о токен-случаях.
И после того как мы нашли причины, решая, как их использовать (и использовать ли вообще), необходимо принимать в расчет не только валидность конкретной зависимости.
* * *
Как минимум 20 американских штатов приняли форму вынесения приговоров по уголовным делам на основании доказательств, когда при определении наказания рассчитывается риск рецидива[436]. Во многом аналогично тому, как медицина продвигалась от стандартизированных процессов к целостному и качественному лечению, основанному на фактах, а не интуитивных догадках, новый подход предполагает использование более твердых принципов при определении риска, который собой представляет человек, и сокращение возможных искажений из-за особых полномочий или выводов отдельных судей.
С этими принципами и задачами трудно не согласиться. Однако подобные калькуляторы риска учитывают множество характеристик, помимо криминальных досье отдельных лиц (к примеру, финансовое положение и статус занятости), а также факторы вне контроля личности (например, пол). То есть, если два человека совершают одинаковые преступления, риск рецидива в одном случае будет считаться ниже, если обвиняемый имеет постоянную работу или проживает в районе с низким уровнем правонарушений. Расовый признак напрямую в расчет не принимается, но он коррелирует со многими учитываемыми условиями. Суть не в том, есть ли у человека криминальное прошлое и релевантность этого фактора совершенному преступлению. Скорее, этот подход напоминает использование таблиц смертности[437] страховыми компаниями, которые устанавливают стоимость своих продуктов. На самом деле конкретная продолжительность жизни – величина неизвестная, поэтому с помощью таблиц она рассчитывается для индивидуальных клиентов исходя из показателя для соответствующей группы (например, на основе пола и возраста).