Шрифт:
Интервал:
Закладка:
Предположим, в какой-то вымышленной истории некто год за годом отслеживал смерти пациентов Шипмана и производил вычисления, необходимые для составления рис. 10.3. В какой момент ему следовало бить тревогу? Например, такой человек мог бы проводить проверку значимости в конце каждого года. У большого количества людей малая вероятность такого события, как смерть, поэтому можно считать, что количество смертей, подобно количеству убийств, имеет распределение Пуассона, а значит, нулевая гипотеза будет состоять в том, что совокупное число наблюдаемых смертей соответствует распределению Пуассона со средним значением, которое определяется числом ожидаемых смертей.
Если бы это было сделано с общим числом смертей для мужчин и женщин, которые показаны на рис. 10.3, то уже в 1979 году, то есть всего через три года наблюдений, появилось бы одностороннее P-значение 0,004, отражающее разницу между наблюдаемыми 40 смертями и ожидаемыми 25,3[204]. Результаты могли бы быть объявлены статистически значимыми, и Шипман был бы разоблачен.
Однако существуют две причины, по которым такая статистическая процедура была бы крайне неуместна для отслеживания уровня смертности пациентов у врачей общей практики. Во-первых, если у нас нет веской причины подозревать именно Шипмана и наблюдать только за ним, то нам придется вычислять P-значения для всех семейных врачей в Соединенном Королевстве, а на тот момент их было около 25 тысяч. Но по примеру с мертвым лососем мы знаем, что при проведении достаточно большого количества проверок мы обязательно получим ложные сигналы. Если при пороге 0,05 протестировать 25 тысяч врачей, то каждый двадцатый из совершенно невинных докторов (то есть 1300 человек) покажет «статистически высокий уровень» при каждой проведенной проверке, а значит, в отношении него нужно вести расследование, что абсолютно абсурдно. А вот Шипман, наоборот, имел шанс потеряться среди всех этих ложноположительных случаев.
Альтернативой может считаться метод Бонферрони, то есть требование, чтобы P-значение равнялось 0,05/25 000, или 1 на 500 000. В этом случае Шипман был бы пойман в 1984 году, когда при ожидаемом количестве 59,2 у него было 105 смертей, то есть на 46 больше.
Но даже это не будет надежной процедурой для всех врачей в стране. Вторая проблема заключается в проведении повторных проверок на значимость, поскольку ежегодно добавляются новые данные и производится очередная проверка. Существует один замечательный, но сложный теоретический результат, именуемый очаровательным термином «закон повторного логарифма», который показывает, что, выполняя такое повторное тестирование, даже при справедливости нулевой гипотезы, мы определенно отвергнем ее при любом выбранном уровне значимости.
Это настораживает, потому что означает, что при долгосрочной проверке какого-нибудь доктора в итоге мы гарантированно посчитаем, что нашли доказательства избыточной смертности, хотя в реальности его пациенты не подвергаются никакому излишнему риску. К счастью, существуют статистические методы для решения проблемы последовательного тестирования, изначально разработанные во время Второй мировой войны группой статистиков, которая не имела ничего общего со здравоохранением, а трудилась над задачами контроля качества при производстве вооружения и других военных материалов.
Изделия, сходящие с производственной линии, проверяли на соответствие стандарту, а весь процесс контролировался посредством постепенно накапливавшегося общего количества отклонений от стандарта – ровно так же, как при отслеживании избыточной смертности. Ученые поняли, что из закона повторного логарифма следует, что повторное тестирование всегда приводит к предупреждению, что промышленный процесс вышел из-под контроля, даже если на самом деле все функционирует нормально. Независимо друг от друга статистики из США и Соединенного Королевства разработали метод, известный как последовательный критерий отношения вероятностей (ПКОВ), представляющий собой статистику, которая отслеживает накапливающуюся информацию об отклонениях и может быть в любой момент сопоставлена с простыми пороговыми значениями. Как только один из этих порогов преодолевается, срабатывает сигнал тревоги и производственная линия исследуется[205]. Эти методы позволили создать более эффективные промышленные процессы, а позже были адаптированы к использованию в так называемых последовательных клинических испытаниях, при которых накапливаемые результаты регулярно отслеживаются, чтобы понять, не пересечен ли порог, указывающий на полезное лечение.
Я был одним из команды разработчиков варианта ПКОВ, который можно применить к данным о Шипмане. Рис. 10.4 отображает картину для мужчин и женщин в случае, когда в качестве альтернативной гипотезы выступает предположение, что смертность у Шипмана вдвое больше, чем у его коллег. У этого критерия есть пороговые значения, которые контролируют вероятность ошибки первого (альфа) и второго (бета) рода для значений 1 из 100, 1 из 10 000 и 1 из 1 000 000: ошибка первого рода – это общая вероятность того, что статистика пересечет пороговое значение в какой-нибудь точке, если бы у Шипмана был ожидаемый уровень смертности, а ошибка второго рода – общая вероятность статистики не пересечь пороговое значение в какой-нибудь точке, если бы у Шипмана был удвоенный ожидаемый уровень смертности[206].
Рис. 10.4
Статистика для последовательного критерия отношения вероятностей (ПКОВ) для обнаружения удвоения риска смертности: пациенты в возрасте >64 лет, умершие дома / на приеме. Прямые линии отображают пороговые значения «сигнала тревоги» для показанных общих величин ошибок первого (альфа) и второго (бета) рода – предполагается, что они совпадают. Если смотреть на линию для женщин, видно, что Шипман пересек бы внешний порог в 1985 году
Поскольку насчитывается около 25 тысяч семейных врачей, разумно взять пороговое P-значение 0,05/25 000, или 1 на 500 000. Для одних только женщин Шипман преодолел бы более строгий порог α = 0,000001, или 1 на миллион, в 1985 году, а суммарно для женщин и мужчин – в 1984-м. Поэтому последовательный критерий забил бы тревогу в тот же момент, что и примитивный повторяемый тест значимости.