Шрифт:
Интервал:
Закладка:
Скажем, мы принимаем решение о последовательности тестирования двух видов лечения, при этом эффект первого со временем нарастает. Тогда, по сути, B может получить преимущество из-за эффектов А. В стандартном ВКЭ каждый участник получает только одно лечение, поэтому не надо беспокоиться о кумулятивных эффектах множественных влияний или о взаимодействии лекарств. В последовательном эксперименте, однако, не только имеет значение порядок (например, при тестировании двух интерфейсов предпочтение всегда получит второй), но могут иметь место длительные следствия каждого из вмешательств (например, больший опыт работы с системой улучшит показатели). В примере с садом, если воздействие удобрения А происходит медленно, но, начавшись, приобретает устойчивый характер, может быть перекрытие между интервалом активности А и временем применения и измерения B.
Одно из возможных решений – добавить «отмывочный период»[299] между окончанием А и началом B. Его цель – чтобы ко времени начала второго лечения все эффекты первого исчезли. Однако положительные следствия приема лекарства могут быстро спадать, в то время как побочные результаты будут иметь более длительный характер.
Есть еще ограничение: отмывочный период предполагает некоторый промежуток без всякого вмешательства, а отсутствие лечения даже короткое время может оказаться нежелательным (к примеру, если мы тестируем средства от боли). К тому же определение длительности отмывки требует базовых знаний о характере действия вмешательства.
Другой подход – применять терапию непрерывно, но не принимать в расчет некоторую часть данных в начале каждого вмешательства.
Эксперимент такого типа неприменим во многих ситуациях, поскольку целевой объект не должен быстро изменяться. Исследования одного пациента не имеют смысла при острых состояниях, например при гриппе, но успешно проводятся при хронических, таких как артрит[300]. Аналогично последовательный эксперимент с одноразовыми событиями (например, с выборами), когда многие вещи постоянно изменяются за недели до таких событий, также не будет иметь смысла. Хороший выбор – это ситуации более-менее стационарные.
Мы рассматривали массив электронных медицинских записей, чтобы выявить факторы риска застойной сердечной недостаточности, и поняли, что главным можно назвать диабет. Но, когда мы повторили эксперимент, взяв данные по второй выборке, не нашли никакой связи с диабетом, обнаружив вместо этого фактором риска назначение инсулина[301]. Как интерпретировать такое расхождение?
Попытки репликации эксперимента с использованием аналогичной технологии в точно таких же условиях очень важны, чтобы методика была хорошо задокументирована, а сделанные на ее основе выводы стабильны. Отметим: это не воспроизведение вариации исследования, чтобы обобщить тест. Один из примеров репликации – совместный доступ к компьютерным кодам, необработанным данным и этапам выполнения операций. Если кто-то еще сможет воспроизвести на этой основе аналогичные результаты, анализ можно считать реплицируемым. Идеальное повторение довольно сложно выполнить, поскольку любые малые изменения легко вызывают весомые различия в ряде экспериментов. Даже если речь идет о компьютерной программе, которая, кажется, должна вести себя одинаково при каждом запуске, невыявленный баг может стать причиной ее непредсказуемого поведения.
Однако, говоря о репликации в научной сфере, мы часто имеем в виду именно воспроизводимость. То есть хотим знать, получат ли другие экспериментаторы результаты некоего исследования с иными вводными, если обстоятельства будут несколько отличаться[302]. Это даст более строгие доказательства того, что заявленные результаты не были случайностью.
К примеру, в ходе изучения было обнаружено, что настроение детей улучшалось сильнее, если они получали 50 граммов шоколада, чем после угощения морковью. Главный вывод – шоколад делает детей счастливее, чем овощи; поэтому в другом эксперименте этот результат может быть получен на примере конфет M&M’s и брокколи, а в третьем это будут Hershey’s Kisses и сладкий картофель. Ни один из них не будет репликацией первого исследования, но все воспроизводят главный вывод (шоколад приносит больше удовольствия, чем овощи).
Воспроизведение результатов особенно важно при исследованиях методом наблюдений (где невозможность сделать это может говорить о наличии неизмеренных общих причин), но репродукция выводов экспериментальных изысканий также может стать способом получения обобщаемого знания. С учетом множества решений, принимаемых в рамках изучения, неудачные попытки воспроизвести результаты могут стать признаком потенциальных источников смещений или даже нарушения условий эксперимента.
В последних работах проскальзывает беспокойство из-за неудачных репродукций ключевых выводов. Фармацевтические компании утверждают, что удалось воспроизвести всего 20–25 % мишень-ориентированных препаратов, упомянутых в научных материалах[303]. В другом исследовании выяснили, что только 11 % выводов из 53 ключевых экспериментов в области рака обладали воспроизводимостью[304], а статистика по нескольким примерам из области наблюдательных исследований еще хуже[305]. Пытались в психологии репродуцировать выводы высокопрофильных исследований (часто формирующие базу для изысканий) – аналогичный эффект[306].
Но отчего истинная причинная зависимость, выявленная в одном эксперименте, не обнаруживается в другом?
Помимо проблем с подтасовкой и ненамеренными ошибками (к примеру, опечатка в электронной таблице[307] или загрязнение лабораторных образцов), воспроизведение истинного взаимоотношения не так однозначно, как кажется. В случае с исследованием сердечной недостаточности условия репродукции результатов были соблюдены, однако потребовалась масса базовых знаний по значению переменной. Когда диагнозы диабета соединили в единый структурированный формат с временем их постановки, обнаружилась связь с болезнью сердца. Во второй выборке причиной оказался препарат инсулина. Дело в том, что лекарства были одним из нескольких сохраненных атрибутов, поэтому как их временной паттерн, так и факт присутствия/отсутствия оказались более определенными параметрами. В медицинских исследованиях с использованием больничных карт проблематично было даже выяснить достаточно определенно, кто и в каком состоянии находился.