Научные исследования в медицине — ерунда?

Профессор Джон Иоаннидис утверждает, что 85% научных исследований в медицине — полная ерунда. Так ли это?
Научные исследования в медицине — ерунда?

В ряде областей наблюдается кризис воспроизводимости, когда независимые проверки не могут подтвердить полученные ранее результаты.

>>Можно ли открывать глаза под водой

Джон Иоаннидис - один из самых известных специалистов по методологии науки и автор ряда критических заметок о проблемах исследований во многих областях.

>>Как освоить нейронные сети в краткий срок

Он поднял ряд важных вопросов, ставящих под сомнение многие результаты научных публикаций. Я рекомендую всем, кто занимается наукой, ознакомиться с его статьей Why Most Published Research Findings Are False. Она предостерегает о многих подводных камнях, с которыми могут столкнуться исследователи.

Одна из проблем, о которых пишет Иоаннидис - мода на критерий p < 0.05, который часто используется как основной при оценке надежности результатов.

Дело в том, что p-value это лишь вероятность получить в исследовании такой же или более выраженный эффект при условии, что на самом деле никакого эффекта нет. Но это значение мало говорит о вероятности того, что некоторая гипотеза верна.

Для иллюстрации.

Пусть каждый тысячный человек болен ВИЧ, и тест говорит, что Вася (не входящий в какие-либо группы риска) болен с p < 0.05.

Парадокс: Вася с большей вероятностью здоров, чем болен. Почему? По условию на 1000 человек есть один, который реально болен и 999 здоровых. На 999 здоровых ~50 будут с ложно-положительным диагнозом (p < 0.05).

Даже если тест не ошибается на счет больных, на 51 человека с положительным диагнозом, только один на самом деле болен. Вероятность того, что Вася - тот самый больной человек 1/51 т.е. менее 2%.

[Примечание: реальные тесты на ВИЧ намного надежней, а цифры придуманы мной из головы]

Ученые проверяют очень много гипотез, в том числе имеющих малую вероятность быть истинными с самого начала.

Приведу радикальный пример, для иллюстрации.

Исходная (априорная) вероятность того, что гомеопатия работает стремится к нулю (она противоречит хорошо установленным знаниям). Но если вы проведете 20 исследований гомеопатии, одно из них скорее всего даст P < 0.05. Но это ничего не доказывает.

Проблема в том, что еще 19 исследований, где нет положительных результатов, могут быть не опубликованы. Или проведены с другими гомеопатическими препаратами, от других болезней. В обоих случаях мы будем иметь ложно-положительный опубликованный результат о пользе гомеопатии.

Но вместо гомеопатии можно подставить и обычное лекарство. Априорная вероятность того, что некоторое наугад взятое соединение лечит, например, рак тоже не велика. Поэтому лучше проверять те препараты, про которые мы уже имеем какие-то основания полагать, что они могут работать.

Другой пример. Мы ищем у пациентов мутацию, которая приводит к болезни. Мутаций очень много. Поэтому вероятность, что одна конкретная мутация связана с болезнью мала. Поэтому положительный результат связи мутация-болезнь в некоторым тесте с высокой вероятностью будет ложно-положительным.

Более свежая статья о проблема p-value называется An investigation of the false discovery rate and the misinterpretation of p-values (David Colquhoun).

Автор рекомендует отказаться от порога P <0.05 и, как минимум, перейти к более жестким критериями отбора гипотез (например, в биомедицине если p < 0.001, то вероятность ошибиться сильно меньше). Но это требует увеличения размеров выборок.

Иоаннидис призывает учитывать исходную (априорную) вероятность гипотезы, при оценке достоверности результатов. Это делается с учетом других наших знаний.

Отдельно стоит отметить такие проблемы:

Отсутствие поправок на множественные сравнения (чем больше гипотез мы проверяем, тем больше вероятность, что хотя бы одна из проверок даст ложно-положительный результат - это надо учитывать). Если вы проверяете не вызывает ли красная конфетка рак, не вызывает ли зеленая конфетка рак и т.д., то даже если все конфетки безопасны, вы найдете такую конфетку какого-нибудь из десятка цветов, которая по случайным причинам окажется связанной с раком (ложно-положительный результат).

Необходимо независимое воспроизведение. Особенно маловероятных и важных результатов.

Финансовая заинтересованность в получении положительных результатов может внести свой вклад в долю ложно-положительных результатов исследований.

Снижена вероятность публикации отрицательных результатов. Надо поощрять журналы, которые публикуют нулевые результаты. Медицинские исследования надо заранее регистрировать, а потом проводить. Чтобы ученые могли учитывать работы, не доведенные до публикации.

Нарушения научной методологии в самих исследованиях - нарушения ослепления, рандомизации, подгонка статистических моделей для получения заветных P < 0.05 и т.д. Во многих работах эти стандарты нарушены.

И ряд других проблем.

Вывод примерно такой: если что-то опубликовано в научном журнале - это еще не значит, что это окончательно установлено. Особенно если есть какие-то изъяны в методологии. От критерия P<0.05 надо отказаться в пользу более жестких критериев.

Выборки надо увеличить, чтобы мощность исследований была больше. Так будет меньше ложно-положительных результатов. Давать предварительные оценки вероятности истинности гипотезы до проведения эксперимента.

Комментарии
Комментарии