Научные исследования в медицине — ерунда?
В ряде областей наблюдается "кризис воспроизводимости", когда независимые проверки не могут подтвердить полученные ранее результаты.
>> Можно ли открывать глаза под водой
Джон Иоаннидис - один из самых известных специалистов по методологии науки и автор ряда критических заметок о проблемах исследований во многих областях.
>> Как освоить нейронные сети в краткий срок
Он поднял ряд важных вопросов, ставящих под сомнение многие результаты научных публикаций. Я рекомендую всем, кто занимается наукой, ознакомиться с его статьей Why Most Published Research Findings Are False. Она предостерегает о многих "подводных камнях", с которыми могут столкнуться исследователи.
Одна из проблем, о которых пишет Иоаннидис - мода на критерий p < 0.05, который часто используется как основной при оценке надежности результатов.
Дело в том, что p-value это лишь вероятность получить в исследовании такой же или более выраженный эффект при условии, что на самом деле никакого эффекта нет. Но это значение мало говорит о вероятности того, что некоторая гипотеза верна.
Для иллюстрации.
Пусть каждый тысячный человек болен ВИЧ, и тест говорит, что Вася (не входящий в какие-либо группы риска) болен с p < 0.05.
Парадокс: Вася с большей вероятностью здоров, чем болен. Почему? По условию на 1000 человек есть один, который реально болен и 999 здоровых. На 999 здоровых ~50 будут с ложно-положительным диагнозом (p < 0.05).
Даже если тест не ошибается на счет больных, на 51 человека с положительным диагнозом, только один на самом деле болен. Вероятность того, что Вася - тот самый больной человек 1/51 т.е. менее 2%.
[Примечание: реальные тесты на ВИЧ намного надежней, а цифры придуманы мной из головы]
Ученые проверяют очень много гипотез, в том числе имеющих малую вероятность быть истинными с самого начала.
Приведу радикальный пример, для иллюстрации.
Исходная (априорная) вероятность того, что гомеопатия работает стремится к нулю (она противоречит хорошо установленным знаниям). Но если вы проведете 20 исследований гомеопатии, одно из них скорее всего даст P < 0.05. Но это ничего не доказывает.
Проблема в том, что еще 19 исследований, где нет положительных результатов, могут быть не опубликованы. Или проведены с другими гомеопатическими препаратами, от других болезней. В обоих случаях мы будем иметь ложно-положительный опубликованный результат о пользе гомеопатии.
Но вместо гомеопатии можно подставить и обычное лекарство. Априорная вероятность того, что некоторое наугад взятое соединение лечит, например, рак тоже не велика. Поэтому лучше проверять те препараты, про которые мы уже имеем какие-то основания полагать, что они могут работать.
Другой пример. Мы ищем у пациентов мутацию, которая приводит к болезни. Мутаций очень много. Поэтому вероятность, что одна конкретная мутация связана с болезнью мала. Поэтому положительный результат связи мутация-болезнь в некоторым тесте с высокой вероятностью будет ложно-положительным.
Более свежая статья о проблема p-value называется An investigation of the false discovery rate and the misinterpretation of p-values (David Colquhoun).
Автор рекомендует отказаться от порога P <0.05 и, как минимум, перейти к более жестким критериями отбора гипотез (например, в биомедицине если p < 0.001, то вероятность ошибиться сильно меньше). Но это требует увеличения размеров выборок.
Иоаннидис призывает учитывать исходную (априорную) вероятность гипотезы, при оценке достоверности результатов. Это делается с учетом других наших знаний.
Отдельно стоит отметить такие проблемы:
Отсутствие поправок на множественные сравнения (чем больше гипотез мы проверяем, тем больше вероятность, что хотя бы одна из проверок даст ложно-положительный результат - это надо учитывать). Если вы проверяете не вызывает ли красная конфетка рак, не вызывает ли зеленая конфетка рак и т.д., то даже если все конфетки безопасны, вы найдете такую конфетку какого-нибудь из десятка цветов, которая по случайным причинам окажется связанной с раком (ложно-положительный результат).
Необходимо независимое воспроизведение. Особенно маловероятных и важных результатов.
Финансовая заинтересованность в получении положительных результатов может внести свой вклад в долю ложно-положительных результатов исследований.
Снижена вероятность публикации отрицательных результатов. Надо поощрять журналы, которые публикуют нулевые результаты. Медицинские исследования надо заранее регистрировать, а потом проводить. Чтобы ученые могли учитывать работы, не доведенные до публикации.
Нарушения научной методологии в самих исследованиях - нарушения ослепления, рандомизации, подгонка статистических моделей для получения заветных P < 0.05 и т.д. Во многих работах эти стандарты нарушены.
И ряд других проблем.
Вывод примерно такой: если что-то опубликовано в научном журнале - это еще не значит, что это окончательно установлено. Особенно если есть какие-то изъяны в методологии. От критерия P<0.05 надо отказаться в пользу более жестких критериев.
Выборки надо увеличить, чтобы мощность исследований была больше. Так будет меньше ложно-положительных результатов. Давать предварительные оценки вероятности истинности гипотезы до проведения эксперимента.