Шрифт:
Интервал:
Закладка:
• только сырой ГМ-картофель,
• только вареный ГМ-картофель,
• только сырой обычный картофель,
• только вареный обычный картофель,
• сырой обычный картофель + добавка из лектина GNA,
• вареный обычный картофель + добавка из лектина GNA.
Однако к моменту начала скандала было проведено только несколько краткосрочных экспериментов. В отчете, который позднее опубликует Пуштаи, описаны 6 экспериментов, в которых участвовали всего 6 крыс – по одному животному на каждую изучаемую схему кормления. На утро десятого дня эксперимента все крысы были умерщвлены и проведено вскрытие с последующим измерением толщины и длины разных органов. Эффекты от разных диет искали, сравнивая попарно у экспериментальных и контрольных животных:
• желудки,
• части тощей,
• подвздошной,
• слепой
• и толстой кишки.
Одно животное для одного эксперимента – это уже просто катастрофически мало для формирования хоть каких-то выводов, в основе которых лежала бы статистика. С огромной натяжкой можно говорить о неких выводах, будь нам известны характеристики тканей и органов крыс до начала экспериментов с кормлением. Но узнать их до вскрытия было невозможно, так что в основе построения схемы эксперимента могло лежать лишь предположение, что все 6 крыс были точными копиями друг друга. Хотя в реальности даже клоны имеют различия – например, из-за индивидуальных особенностей эмбрионального развития. Все же группа Пуштаи делает именно такое предположение и дальше исходит из него в своей работе и ее выводах.
Отчет группы Пуштаи:
Крысы, получавшие вареный ГМ-картофель, имели значительно более тонкую слизистую оболочку слепой кишки, чем крысы, получавшие обычный отварной картофель с добавлением лектинов (p=0,04) или без него (p=0,05).
На самом деле:
В утверждении, что ими были обнаружены некие эффекты, авторы использовали критерий статистической значимости (p-значение) (подробнее и с примерами о нем в сноске). Считается, что получить p-значение < 0,05 – это «вроде как достаточно» для подтверждения гипотезы исследователя. Но всегда ли этого достаточно?
Что если мы хотим сравнить группы данных по нескольким параметрам одновременно?[306] И вот для одной из пар сравнений мы видим ответ 0,05. Устраивает ли он нас в таком случае? На самом деле, нет (на с. 207 можно с примерами разобраться, почему). Пример: интуитивно понятно, что в середине ноября в Москве событие «завтра будет дождь» менее вероятно, чем событие «завтра будет или дождь, или снег, или солнце» – что-то из этого обязательно же будет. Поэтому оценка шанса, что мы угадаем случайно, а не сделаем точное научное предсказание, для такого более вероятного события, как «или дождь, или снег, или солнце», должна быть более строгой. То есть общепринятые 0,05 нужно откорректировать под условия конкретной задачи. Для этого можно использовать такой прием, как поправка на множественное сравнение[307]: разделить допустимое p-значение на количество параметров, по которым мы оцениваем (или дождь, или снег, или солнце – это три параметра: 0,05 / 3 = 0,017).
Этот критерий позволяет судить о том, какова вероятность получить такие же или даже более выраженные различия между группами, если на самом деле никаких различий там нет. Звучит довольно запутанно. Давайте посмотрим на примере.
Пусть мы хотим понять, оказывает ли диета X побочное действие, допустим, на толщину стенок желудка. Возьмем две группы крыс, в каждой из которых будет по 100 животных. Крысам из первой группы будем давать рацион Х, а крысам из второй – обычный рацион. Спустя неделю проведем вскрытие и измерим параметры их желудков. Если среди тех 100 крыс, что были на рационе Х, у 60 крыс толщина стенок желудка была выше нормы, а среди вторых 100 только у 30 крыс толщина была выше нормы, то можем ли мы говорить о том, что рацион X связан с толщиной стенок желудка? Или мы просто случайно составили группы так, что в первую группу попало больше крыс с изначально более толстыми стенками желудка? А если бы вместо 100 мы исследовали по 200 крыс в каждой группе, мы бы увидели такую же разницу?
За точку отсчета в науке ученые договорились принимать, что два явления не связаны, если не доказано обратное. С помощью p-значения оценивают вероятность того, что в первой группе большая толщина стенок желудка будет у большего количества крыс, при условии, что толщина стенок желудка не связана с рационом Х. И если мы исключили бы диету X из эксперимента, то соотношение крыс с такой толщиной стенок желудка по группам осталось бы прежним. Эта вероятность (p) рассчитывается по специальным правилам, которые учитывают тип данных, с которыми мы работаем.
Считается, что приемлемым p-значением являются значения, меньшие 0,05. То есть в примере про диету X и изучение ее возможного побочного эффекта p-значение=0,05 означало бы: вероятность того, что различия в толщине стенок не связаны с рационом Х, а является просто наблюдаемой случайностью, составляет 5 %. То есть достаточно мала. И из этого можно сделать первый промежуточный вывод о том, что рацион Х, возможно, связан с изменениями параметров желудка.
И подчеркну еще раз: вывод этот промежуточный. Медицина и биология, как правило, оперируют слишком важными вещами, чтобы позволить себе допустить в них ошибочные выводы. Семь раз проверь и один раз… проверь еще лучше. А вот потом подумаем, резать ли вообще. И напоследок в этой вставке немного занудства от автора-математика: если в современной научной публикации вы видите, что для оценки результатов использовано только p-значение, это повод отнестись к результатам осторожно. Хорошим тоном для современных исследований является подтверждение результатов несколькими разными математическими методами.
Возьмите (в воображении) в руку игральную кость. Замахнитесь и киньте ее, не глядя, на стол перед собой. Какова вероятность того, что кость обращена шестеркой вверх? Так как граней у кости 6, а выпадение каждой из них равновероятно, то вероятность выпадения шестерки равна 1/6. Или 16,67 %. Не очень много. Теперь все также в воображении сожмите в ладони шесть игральных костей (в мою руку даже мысленно сложно уместить больше), размахнитесь хорошенько и выбросьте кости на стол. Какова теперь вероятность того, что хотя бы одна из костей упала шестеркой вверх? Интуитивно кажется, что хотя бы одна из костей наверняка так