shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-05-14 10:28 pm

Вакцинация и смертность

Прислали ссылку на вот это обсуждение вот этой статьи, нашедшей, что чем больше в стране рекомендуемых прививок, тем выше смертность среди детей до года. [livejournal.com profile] bbb там указывает на слабые моменты в статье, и дает ссылку на вот этот пост, где эта статья тоже разбирается. Для тех, кто не читает по английски, автор удивляется, что такая слабая статья прошла рецензирование и приводит четыре проблемы с этой статьей:

  1. Отсутствие гипотезы (или предварительных данных), которая побудила бы исследовать данную зависимость. Это означает, что анализ полностью сделан post-hoc, по уже существующим данным, и в таких случаях использование какой-либо статистики является бессмысленным приемом, потому что зависимость найдена a priori, а стат-анализ требует либо четкого формулировки гипотезы до того как данные были проанализированы, либо коррекции на множественные анализы (потому что при желании в существующем наборе данных всегда можно найти какую-нибудь зависимость).

  2. Странная выборочность данных для анализа. Они приводят критерии выбора: страны с более низкой детской смертностью чем США и с больше чем 5 смертями в год, но не приводят серьезных причин для именно такой выборки. Кроме того, данные взяты только за один год и почему-то именно с сайта CIA, хотя CIA и говорит везде, что это лишь их примерные оценки.

  3. Вся статья сводится к одному очень простому анализу. Нет попытки исследовать данные за другие годы или в других странах или влияние иных факторов. Необычность утверждений в этой статье должна бы требовать более тщательного анализа, чем один график.

  4. Способ подсчета прививок не имеет большого биологического смысла, каждая прививка DTaP считаются за три. Тот факт, что "дети умершие до года" скорее всего не получили полного набора рекомендуемых прививок, тоже никак не учитывается.


Лично я хотел лишь отметить некоторую шизофреничность антипрививочников. С одной стороны, они игнорируют подавляющее большинство научных статей, публикуемых в научных журналах каждый месяц и показывающих положительный эффект самых разных вакцин на здоровье в самых разных странах. К статистике они относятся с презрением, считая ее продажной девкой империализма и напирая на то, что индивидуальное здоровье важнее массового эффекта. С другой стороны, они очень любят подчеркнуть, как это делает автор процитированного поста, любую антипрививочную стать опубликованную в "научном журнале" и в данном случае "статистически достоверная линейная зависимость" - это уже плюс. WHO у них - это еще одна продажная девка, содержащаяся на деньги американского правительства, пролоббированного фармацевтическими компаниями, однако CIA они готовы верить безоговорочно (как будто CIA содержится на какие-то иные деньги).

[identity profile] elensefar.livejournal.com 2011-05-15 12:14 pm (UTC)(link)
А можете ответить на вопрос не совсем по теме человека вообще без высшего образования? Да еще и оригинал статьи не читавшего.

> Отсутствие гипотезы (или предварительных данных), которая побудила бы исследовать данную зависимость.

Разве такое исследование не следует считать как "рассматривающее все гипотезы"? Получается что-то странное: не выбрав некоторые гипотезы (то есть не отбросив остальные), мы не можем проводить исследование. Но ведь отбрасывая гипотезы до исследования мы уже вносим какие-то априорные результаты. или я не совсем понял, что Вы имели в виду?

>(потому что при желании в существующем наборе данных всегда можно найти какую-нибудь зависимость).

Почему? В полностью случайных данных никаких закономерностей нет.

[identity profile] shvarz.livejournal.com 2011-05-15 01:57 pm (UTC)(link)
"Разве такое исследование не следует считать как "рассматривающее все гипотезы"? Получается что-то странное: не выбрав некоторые гипотезы (то есть не отбросив остальные), мы не можем проводить исследование. Но ведь отбрасывая гипотезы до исследования мы уже вносим какие-то априорные результаты. или я не совсем понял, что Вы имели в виду?"

Наука не занимается тестированием всех теоретически-возможных гипотез, которые приходят в голову из ниоткуда. Как правило исследование является частью цикла "данные-гипотеза-эксперимент-данные-...". Поэтому вначале указывается набор причин и предварительных данных, которые служат основанием для рассмотрения данной гипотезы.

Почему? В полностью случайных данных никаких закономерностей нет.
Их там нет, но их там можно при желании найти. Не верите - дайте мне набор случайных цифр, я вам это продемонстрирую. Поиск закономерностей в уже существующих данных называется post-hoc анализом и как правило статистику к нему всерьез не применяют. Такой анализ - важный элемент цикла, упомянутого выше, но после этого требуется сформулировать гипотезу и сделать сфокусированный тест именно этой гипотезы на новом наборе данных. Тогда будет иметь смысл делать статистику.

[identity profile] elensefar.livejournal.com 2011-05-15 02:31 pm (UTC)(link)
"Не верите - дайте мне набор случайных цифр, я вам это продемонстрирую."

Для меня эта просьба невыполнима, честно говоря. Сгенерировать набор данных с колмогоровской сложностью равной длине самого набора я не в состоянии. Но насколько я понимаю, закономерностей в нем не найти. Другое дело, может я неверно понимаю, что понимается под "закономерностью". В данном случае я подразумевал "закон, позволяющий восстановить исходную последовательность, используя небольшое число дополнительной информации". Это определение, безусловно, создавалось в рамках исследования алгоритмической сложности.

"Наука не занимается тестированием всех теоретически-возможных гипотез, которые приходят в голову из ниоткуда."

По практическим соображениям, как я понимаю? Перебрать все не сможет никто? Однако ведь "теоретически" любая такая гипотеза должна быть отброшена (или подтверждена) при строгой проверке и имеющихся эмпирических данных! Иначе получается странная ситуация, как я понимаю, что верность естественно-научных представлений опирается на "чисто вычислительную" неспособность одновременно обрабатывать все возможные гипотезы.

(Anonymous) 2011-05-15 09:24 pm (UTC)(link)
Раз вам близка колмогоровская сложность, почитайте http://arxiv.org/abs/0906.4411 (в частности, раздел 3). Если останутся вопросы, отловите Сашу Шеня :)

[identity profile] shvarz.livejournal.com 2011-05-16 02:43 am (UTC)(link)
Рассуждения о колмогоровской сложности - это выше моего понимания. Я вам на практике говорю, что если у вас имеется некий набор данных, то в нем можно "найти" целую кучу закономерностей, которые на практике не будут иметь ничего общего с реальностью.

По практическим соображениям, как я понимаю?
:) Это, конечно, важно и в повседневной научной жизни действительно играет роль. Но на самом деле причины для этого куда более глубокие, можно даже сказать - философские. Во-первых, ни один кусочек знания сам по себе, без контекста остальной системы знания, не имеет ценности, да и вообще не может существовать. Знание всегда является связной системой. Во-вторых, новые сущности в науке не вводятся без необходимости (знаменитое лезвие Оккама), а необходимостью всегда является невозмнжность объяснить имеющиеся данные в рамках существующих гипотез. Введение новой гипотезы "просто потому, что она возможна" нарушает этот принцип.

[identity profile] russian-o.livejournal.com 2011-05-15 02:08 pm (UTC)(link)
Корреляция - это далеко не закономерность. И в случайных данных их можно найти тьму.
Вот, полюбопытствуйте для иллюстрации
http://russian-o.livejournal.com/28520.html

[identity profile] elensefar.livejournal.com 2011-05-15 02:46 pm (UTC)(link)
Интересное исследование. То ли невнимательно читал, то ли что-то не понимаю, но выглядит правдоподобно, бананы больше есть не буду. А в чем причина корреляции? Третий фактор или чисто случайное совпадение?

Насколько я понимаю, основная проблема таких исследований - игнорирование каких-то еще факторов, кроме рассматриваемых в исследовании. Метафорично "сужение мира до бананов и заболевания раком". Причем зачастую числа эти сами высчитываются из более элементарных данных произвольно "Способ подсчета прививок не имеет большого биологического смысла, каждая прививка DTaP считаются за три. "

И рассмотрение более сложной картины либо убивает эти гипотезы, либо подтверждает уже на совокупности больших данных. Понятно, что практически проверить все миллионы соединений в бананах невозможно, но разве теоретически "корреляция всего со всем" (это понятие, безусловно, требуется определить) не будет идеальной?

[identity profile] shvarz.livejournal.com 2011-05-16 02:49 am (UTC)(link)
Нет, основная проблема таких исследований (что пост по ссылке и призван проиллюстрировать) - именно то, о чем я говорил выше. В любом большом массиве данных можно найти "закономерность", разглядывая данные post hoc. В данном случае никакой реальной зависимости между двумя коррелирующими параметрами не существует. Это просто совпадение, плюс подгон шкалы для создания видимости очень близкой корреляции.

[identity profile] russian-o.livejournal.com 2011-05-16 08:37 pm (UTC)(link)
Но-но! Корреляция там самая настоящая! А шкалу имею право подтянуть как хочу - ибо параметры разные. Подрезал даты немного, каюсь, но и без этого там прОцентов 85 корреляция.

[identity profile] shvarz.livejournal.com 2011-05-17 01:28 am (UTC)(link)
А я корреляцию под сомнение и не ставил, только реальность зависимости :)

[identity profile] polytheme.livejournal.com 2011-05-18 12:42 am (UTC)(link)
возможно, это как-то связано со старением населения и ростом благосостояния, на самом деле. т.е. больше людей имеет возможность покупать бананы, и больше людей имеет возможность дожить до рака. кроме этого, бананы могут снижать число сердечно сосудистых заболеваний (и те, кто не умирает от инфаркта, теперь доживают до рака), или, более разумно, рост потребления бананов может отражать динамику вегетарианских настроений в обществе и т.д. - но вот это уже, по-моему, более сомнительные соображения.
кривые нарисованы провокативно, их налепили друг на друга; однако часть корреляции должна объясняться первым соображением или чем-то вроде него, потому что обе кривые стабильно и более-или-менее линейно идут вверх (гипотезу прямой зависимости мы отметаем, как неорганизованную :); достаточно ли этого для такой сильной корреляции, уже другой вопрос (если, конечно, поверить, что автор не обсчитался с 90%). с другой стороны, тут ещё может сыграть такой фактор: у нас есть, грубо говоря, сто сортов продуктов питания, потребление которых есть некоторый фактор, общий с раком + вполне себе винеровкий процесс, свой для каждого продукта. выбирая продукт питания с наилучшим коэффициентом корреляции, может быть можно процентов десять-двадцать и наиграть (говорю от балды, без бумажки считать лень); с авокадой, кстати, тоже есть ощущение роста, на который наложена дичайшая волатильность - это видимо, авокадная специфика, волны чижевского и динамика популяции авокадного долгоносика :)

Одна из существенных подлянок там вот в чем:

[identity profile] sgustchalost.livejournal.com 2011-05-19 01:43 pm (UTC)(link)
(и вы можете ее самостоятельно исправить! а мне некогда)

infant mortality rate (IMR) = смертность до года, которая анализируется в статье, на 50% и более состоит из неонатальной смертности (до месяца). Последняя, в свою очередь, во-первых, мало зависит от вакцинации, во-вторых, определяется, в основном, пороками развития плода.
Поэтому ее надо вычитать, а анализировать только "сухой остаток" - смертность от 1 мес до 12 или, дучше даже до 60 мес (вакцины-то Очень Вредные).