shvarz: (Default)
"Обычная" статистика (которую всем преподают в школе) задается вопросом: "Какова вероятность полученных данных при условии, что гипотеза А верна?" и отвергает гипотезу, если эта вероятность мала (но при этом ничего не говорит о вероятностях гипотезы А или альтернативных гипотез). Томас Байес в середине 18 века поставил вопрос иначе: "Какова вероятность гипотезы А исходя из полученных данных?" Это гораздо более интуитивно-понятный вопрос и часто нас интересует именно он, что ведет к тому, что всякие биологи вроде меня регулярно скатываются при обсуждении статистики к вероятностям той или иной гипотезы даже при использовании обычной, фреквентистской, статистики (что некорректно). Более того, байесовский подход в его краткой форме даже звучит более логично: Мы начинаем с неких предположений о том, что вероятно, а что нет, потом делаем эксперимент и используем его результаты для того, чтобы уточнить наши начальные предположения. Но история байсовского подхода, изложенная в этой книге, полна эпизодами, когда статистики его категорически отвергали или даже объявляли окончательно дискредитированным и похороненным навсегда (отсюда и название книги).

В некотором роде история Байеса повторяет историю Менделя. Открытие его не получило должного признания после публикации и имя Байеса оказалось бы забытым, если бы не его друг Прайс, который вскользь упомянул о нем Лапласу. Математический гений своего времени, Лаплас независимо пришел к вопросу о вероятностях гипотез, но не знал что делать, если до эксперимента мы не имеем ни малейшего представления о его возможных результатах. Прайс указал Лапласу, что Байес в таком случае просто считал, что все гипотезы равновероятны. Собственно Лаплас и был настоящим основополагателем байесовской статистики, расширив решение частной проблемы над которой работал Байес, до общих принципов. Но после смерти Лапласа в 1827 году теория пришла в упадок и чуть было не оказалась забыта. Более того, байесовский подход приобрел даже дурную репутацию. Проблема была в том, что байсовский подход имеет ряд преимуществ в ситуациях, когда статистических данных очень мало и приходится субъективно оценивать начальные ("до-эксперимента") вероятности гипотез. Этот субъективизм стал неприличным словом, поскольку упор в статистике был на получение как можно более объективной картины.

В начале 20 века байесовский подход вообще ушел в подполье. Именно тогда был расцвет фреквентистской статистики - Фишер, Пирсон, Райт категорически отвергали байеса. Однако интересно, что несмотря на изгнание байеса из теоретической статистики, он начал использоваться на практике - в экономике, в политике. Забавно, что формулы оценки риска, использовавшиеся страховыми компаниями, были основаны на байесе, о чем страховые агенты даже не подозревали. Даже когда люди осознанно использовали байесовский подход, они предпочитали замалчивать этот факт и называли его каким-нибудь иным словом. Что интересно, одними из основных пользователей байесовской методологии оказались военные. И в первой и во второй мировой войне англичане и американцы использовали байесовские методы для самых разных целей: проверки качества снарядов, пристрелки орудий, нахождения подводных лодок. Одним из самых важных применений байеса была расшифровка Тюрингом немецких шифровок, созданных машинами Enigma. Однако большинство этих работ были засекречены и поэтому о пользе байеса за пределами математиков, работавших на военку, никто не знал.

Постепенно однако байес "вышел из чулана" и во второй половине 20 века стал появляться в виде вполне легитимной теории. Настоящий же его расцвет произошел в 80-х годах по двум причинам. Во-первых, развитие компьютеров позволило производить сложные вычисления, необходимые при байесовском подходе. Во-вторых, развитие цепей (или последовательностей?) Маркова позволило упростить многие байесовские вычисления и преодолеть ряд теоретических проблем теории. Сейчас байесовский подход используется очень широко в самых разных областях. Например, в экономике он помогает делать прогнозы продаж, а в интернете используется для фильтрования спама и машинного перевода текста.

В своей книге МкГрейн подробно и довольно интересно описывает всю историю байесовского подхода с массой примеров и с хорошим описанием людей, оказавших влияние на развитие статистики. К сожалению, о самой теории она не говорит почти ничего и понять чем же именно так хорош байесовский подход по этой книге невозможно. Он там появляется как deus ex machina, магическим образом решая сложные проблемы. Вся книга построена по модели: "В году Х была проблема Y и никто не знал, как ее решить. Но математик Z применил байесовский подход и проблема тут же оказалась решена." Поэтому при чтении создается впечатление, что все эти истории являются Just So Stories - красивыми сказками, без реального подтверждения того, что байес сыграл в них действительно важную роль. Может быть и действительно предсказания сделанные байесовским методом были лучше, чем какие-либо иные, но без объяснения подлежащей логики создается ощущение, что реальную эффективность никто не измерял или же что намеренно были отобраны истории в которых байес сработал. В общем, эту книжку стоит читать тем, кто хотя бы поверхностно знаком с байесовским методом и кому интересна история его развития. Я некоторые части прочитал с интересом, а некоторые пролистал. 3.5-4 звездочки из пяти.
shvarz: (Default)
Интересный пост про то, почему оценки количества смертей от малярии могут отличаться в два раза. У ВОЗ получилось 600 тысяч, а у IHME - 1.2 миллиона.

Вкратце - потому что никто толком не знает, что там в Африке делается. Приходится экстраполировать, а при таких больших цифрах (а в том, что малярии в Африке дофига, никто не сомневается), даже небольшие ошибки накапливаются. Самый показательный пример - данные по всей Нигерии, стране с 150-миллионным населением, пришлось экстраполировать исходя из данных по одной деревне, в которой от малярии предположительно умерло 240 человек. Предположительно - потому что настоящий диагноз никто не ставил, а оценки просто получены по опросам родственников о том, как чувствовал себя человек перед смертью.

Off-top: Кто-нибудь знает хорошие недавние обзорные ревью по гепатиту C? Репликация, лечение, вакцины и т.п.
shvarz: (Default)
В комментах к баейсосрачу в предыдущем посте [livejournal.com profile] kobak дал ссылку на прекрасное видео. Если вдруг кто пропустил:

shvarz: (Default)
Собрался с духом и прочитал вот эту статью. Если у кого доступа нет, не плачьте, я вам сейчас все напою.

Два года назад были обнародованы результаты клинического испытания ВИЧ вакцины в Таиланде и, впервые за 30 лет исследований, был получен положительный сигнал - 31% эффективности в предотвращении инфекции. Стат-анализ выдал p=0.04 (то есть результат статистически-достоверный по общепринятым канонам). Авторы этой статьи (среди которых есть и сами исследователи этой вакцины), начинают с того, что "p value" - концепция не интуитивная и часто неправильно интерпретируемая. Поэтому они сейчас обсчитают те же результаты байесовскими методами, которые дают ответ на интуитивно-понятный вопрос "Какова вероятность того, что вакцина (не) работает?"

Хитрость байесовской статистики заключается в том, что для нее требуется ваша "изначальная, до-эксперимента-сформулированная гипотеза" о том, что именно вы в эксперименте получите. Я не знаю где как, а в биологии часто фиг сформулируешь, что именно ты ожидаешь. В данном случае, прямо как в анекдоте, можно сказать, что вероятность того, что вакцина работает, равна 50%, потому что "либо она работает, либо нет". А можно сказать, что "наверняка не сработает" - потому что дурацкая совершенно вакцина и работать не должна. Вообще сколько людей, столько и мнений.

В результате получаем ключевую таблицу из статьи:


Верхняя строка - "изначальная, до-эксперимента-сформулированная гипотеза" о вероятности того, что вакцина работать не будет.
Вторая строка - стат.анализ полученных данных на предмет вероятности того, что вакцина не работает.
Третья и четвертая строки - соответственно вероятности того, что вакцина работает и того, что увеличивает число инфекций.

Результаты, конечно, впечатляющие - от вероятности в 3% до вероятности в 70% :) Выбирай, какие хочешь.

Я уж лучше, по-старинке, на p value посмотрю.

UNICEF

Jan. 22nd, 2009 12:35 pm
shvarz: (Default)
UNICEF выпустила собранную статистику за прошлый год. Вернее, статистика за 2006 год, но была скомпилирована в 2008 году.
Там удобно строить свои собственные таблицы по имеющимся данным - добавлять нужные страны, нужные параметры. Потом все можно скидывать в Excel.
Или можно просто посмотреть на все имеющиеся данные для каждой страны.

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 29th, 2025 04:50 pm
Powered by Dreamwidth Studios