shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2012-05-01 09:49 am

"The theory that would not die" by Sharon Bertsch McGrayne

"Обычная" статистика (которую всем преподают в школе) задается вопросом: "Какова вероятность полученных данных при условии, что гипотеза А верна?" и отвергает гипотезу, если эта вероятность мала (но при этом ничего не говорит о вероятностях гипотезы А или альтернативных гипотез). Томас Байес в середине 18 века поставил вопрос иначе: "Какова вероятность гипотезы А исходя из полученных данных?" Это гораздо более интуитивно-понятный вопрос и часто нас интересует именно он, что ведет к тому, что всякие биологи вроде меня регулярно скатываются при обсуждении статистики к вероятностям той или иной гипотезы даже при использовании обычной, фреквентистской, статистики (что некорректно). Более того, байесовский подход в его краткой форме даже звучит более логично: Мы начинаем с неких предположений о том, что вероятно, а что нет, потом делаем эксперимент и используем его результаты для того, чтобы уточнить наши начальные предположения. Но история байсовского подхода, изложенная в этой книге, полна эпизодами, когда статистики его категорически отвергали или даже объявляли окончательно дискредитированным и похороненным навсегда (отсюда и название книги).

В некотором роде история Байеса повторяет историю Менделя. Открытие его не получило должного признания после публикации и имя Байеса оказалось бы забытым, если бы не его друг Прайс, который вскользь упомянул о нем Лапласу. Математический гений своего времени, Лаплас независимо пришел к вопросу о вероятностях гипотез, но не знал что делать, если до эксперимента мы не имеем ни малейшего представления о его возможных результатах. Прайс указал Лапласу, что Байес в таком случае просто считал, что все гипотезы равновероятны. Собственно Лаплас и был настоящим основополагателем байесовской статистики, расширив решение частной проблемы над которой работал Байес, до общих принципов. Но после смерти Лапласа в 1827 году теория пришла в упадок и чуть было не оказалась забыта. Более того, байесовский подход приобрел даже дурную репутацию. Проблема была в том, что байсовский подход имеет ряд преимуществ в ситуациях, когда статистических данных очень мало и приходится субъективно оценивать начальные ("до-эксперимента") вероятности гипотез. Этот субъективизм стал неприличным словом, поскольку упор в статистике был на получение как можно более объективной картины.

В начале 20 века байесовский подход вообще ушел в подполье. Именно тогда был расцвет фреквентистской статистики - Фишер, Пирсон, Райт категорически отвергали байеса. Однако интересно, что несмотря на изгнание байеса из теоретической статистики, он начал использоваться на практике - в экономике, в политике. Забавно, что формулы оценки риска, использовавшиеся страховыми компаниями, были основаны на байесе, о чем страховые агенты даже не подозревали. Даже когда люди осознанно использовали байесовский подход, они предпочитали замалчивать этот факт и называли его каким-нибудь иным словом. Что интересно, одними из основных пользователей байесовской методологии оказались военные. И в первой и во второй мировой войне англичане и американцы использовали байесовские методы для самых разных целей: проверки качества снарядов, пристрелки орудий, нахождения подводных лодок. Одним из самых важных применений байеса была расшифровка Тюрингом немецких шифровок, созданных машинами Enigma. Однако большинство этих работ были засекречены и поэтому о пользе байеса за пределами математиков, работавших на военку, никто не знал.

Постепенно однако байес "вышел из чулана" и во второй половине 20 века стал появляться в виде вполне легитимной теории. Настоящий же его расцвет произошел в 80-х годах по двум причинам. Во-первых, развитие компьютеров позволило производить сложные вычисления, необходимые при байесовском подходе. Во-вторых, развитие цепей (или последовательностей?) Маркова позволило упростить многие байесовские вычисления и преодолеть ряд теоретических проблем теории. Сейчас байесовский подход используется очень широко в самых разных областях. Например, в экономике он помогает делать прогнозы продаж, а в интернете используется для фильтрования спама и машинного перевода текста.

В своей книге МкГрейн подробно и довольно интересно описывает всю историю байесовского подхода с массой примеров и с хорошим описанием людей, оказавших влияние на развитие статистики. К сожалению, о самой теории она не говорит почти ничего и понять чем же именно так хорош байесовский подход по этой книге невозможно. Он там появляется как deus ex machina, магическим образом решая сложные проблемы. Вся книга построена по модели: "В году Х была проблема Y и никто не знал, как ее решить. Но математик Z применил байесовский подход и проблема тут же оказалась решена." Поэтому при чтении создается впечатление, что все эти истории являются Just So Stories - красивыми сказками, без реального подтверждения того, что байес сыграл в них действительно важную роль. Может быть и действительно предсказания сделанные байесовским методом были лучше, чем какие-либо иные, но без объяснения подлежащей логики создается ощущение, что реальную эффективность никто не измерял или же что намеренно были отобраны истории в которых байес сработал. В общем, эту книжку стоит читать тем, кто хотя бы поверхностно знаком с байесовским методом и кому интересна история его развития. Я некоторые части прочитал с интересом, а некоторые пролистал. 3.5-4 звездочки из пяти.

(Anonymous) 2012-05-01 02:24 pm (UTC)(link)
Поздравляю, Вы прочитали брошюру "Путь к новой жизни" секты байесовцев и теперь можете спастись :)

Если серьезно, байесовский и частотный - два основных типа подходов к основаниям статистики, и сейчас нормальные люди, не сектанты, считают (точнее, верят и надеются), что все практически полезнные методы можно обосновать в каждом из подходов, просто какой-то метод может в одном подходе появиться естественно, а в другом - через задницу.

[identity profile] shvarz.livejournal.com 2012-05-01 02:27 pm (UTC)(link)
Там в конце книги есть забавное приложение, в котором Michael Cmapbell (не знаю кто такой) сравнивает частотников и байесовцев с католиками и born-again христианами, соответственно.

[identity profile] kit58.livejournal.com 2012-05-01 02:42 pm (UTC)(link)
В Англии обосновалась российская команда кристаллографов. Они написали программу по оптимизации структур refmac на байесовском подходе (maximum likelihood). У одного из авторов Алексея Вагина есть страничка со всякими карикатурами - вот одна из них в тему поста:

Likelihood

[identity profile] shvarz.livejournal.com 2012-05-01 02:49 pm (UTC)(link)
Это какой-то очень математический юмор. До меня не доходит.

[identity profile] kit58.livejournal.com 2012-05-01 02:56 pm (UTC)(link)
Ну тут наоборот совсем без математики. Научная общественность ослы, все восторгаются, Байесом, но никто не понимает (НЛО).

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-01 14:58 (UTC) - Expand

[identity profile] luybu.livejournal.com 2012-05-01 03:40 pm (UTC)(link)
Странно Буридановых ослов должно быть чётное количество!

[identity profile] misha-makferson.livejournal.com 2012-05-01 08:23 pm (UTC)(link)
В таком случае один из ослов не Буриданов. :-)

(no subject)

[identity profile] luybu.livejournal.com - 2012-05-02 05:46 (UTC) - Expand

[identity profile] vasja-iz-aa.livejournal.com 2012-05-01 08:02 pm (UTC)(link)
спасибо. теперь я знаю, кто эту замечательную картинку нарисовал
http://www.ysbl.york.ac.uk/~alexei/tutorial/fig19.jpg

[identity profile] shvarz.livejournal.com 2012-05-01 08:04 pm (UTC)(link)
Вы прямо созданы друг для друга :)

(no subject)

[identity profile] vasja-iz-aa.livejournal.com - 2012-05-01 20:11 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-01 20:13 (UTC) - Expand

(no subject)

[identity profile] vasja-iz-aa.livejournal.com - 2012-05-01 20:27 (UTC) - Expand

(no subject)

[identity profile] vasja-iz-aa.livejournal.com - 2012-05-01 20:28 (UTC) - Expand

(no subject)

[identity profile] gegmopo4.livejournal.com - 2012-05-02 13:01 (UTC) - Expand

[identity profile] chupvl.livejournal.com 2012-05-01 10:08 pm (UTC)(link)
да, действительно мизатропные карикатуры :)

[identity profile] luybu.livejournal.com 2012-05-01 03:39 pm (UTC)(link)
А я не привередлив, использовал оба подхода, но говорили, что волюнтаристки :)
Фишера любил вставлять всюду :)
В странах Б СССР, полный провал в статистике, специалистов не найти, кто умер, кто уехал

[identity profile] starshoj.livejournal.com 2012-05-01 04:59 pm (UTC)(link)
http://m.livejournal.com/read/user/starshoj/6660#full

[identity profile] shvarz.livejournal.com 2012-05-01 05:30 pm (UTC)(link)
Непонятно, что в данном случае означает "predicted accurately".

[identity profile] misha-b.livejournal.com 2012-05-01 06:00 pm (UTC)(link)
Читал я эту статью. Ничего о том, "how the mind works" там нет.

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-01 20:08 (UTC) - Expand

(no subject)

[identity profile] misha-b.livejournal.com - 2012-05-02 00:51 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-02 00:53 (UTC) - Expand

(no subject)

[identity profile] misha-b.livejournal.com - 2012-05-02 01:11 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-01 20:08 (UTC) - Expand

[identity profile] yakov-a-jerkov.livejournal.com 2012-05-01 07:02 pm (UTC)(link)
"Обычная" статистика (которую всем преподают в школе)

Мне в школе никакой статистики не преподавали. Да и в американской школе это никак не обязательный курс.

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-01 19:15 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-01 19:21 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-01 19:39 (UTC) - Expand

[identity profile] http://users.livejournal.com/__rico/ 2012-05-02 06:20 am (UTC)(link)
>"Обычная" статистика (которую всем преподают в школе) задается вопросом: "Какова вероятность полученных данных при условии, что гипотеза А верна?" и отвергает гипотезу, если эта вероятность мала (но при этом ничего не говорит о вероятностях гипотезы А или альтернативных гипотез).

ну вообще-то это неверно.
во-первых "обычная статистика" не задается вопросом "Какова вероятность полученных данных при условии, что гипотеза А верна?". Это легко понять например из следующего примера. Представьте, что у нас есть выборка, набор чисел от 0 до 1, и наша гипотеза состоит в том, что эти числа пришли из равномерного распределения на [0, 1]. Тогда ответ на вопрос "Какова вероятность полученных данных при условии, что гипотеза А верна?" очевидно 0. Означает ли это что нужно всегда отвергать гипотезу? Очевидно нет. Классическая статистика все же задается несколько другими вопросами про данные. Кстати, вопрос о том, какие вопросы осмысленны, а какие нет - тоже предмет статистики. Ну и во-вторых, все же классическое тестирование гипотез всегда предполагает определенную альтернативную гипотезу. Без альтернативной гипотезы тестирование просто бессмысленно.

[identity profile] shvarz.livejournal.com 2012-05-02 09:50 am (UTC)(link)
Каким образом в T-test задействована альтернативная гипотеза?

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-02 11:05 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-02 14:59 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-03 20:22 (UTC) - Expand

(no subject)

[identity profile] antchi.livejournal.com - 2012-05-07 09:16 (UTC) - Expand

[identity profile] antchi.livejournal.com 2012-05-07 09:15 am (UTC)(link)
Ну почему бессмысленно? Критерии значимости не предполагают уточнения альтернативной гипотезы. Другое дело, что мощность критерия имеет смысл считать или моделировать только при наличии альтернативы. Но это уже для математиков развлечение.

[identity profile] tea-with-milk.livejournal.com 2012-05-02 07:53 pm (UTC)(link)
Егор, у меня к Вам совершенно не по теме ворпос, как к вирологу. Насколько трудоемок экспериментальный процесс идентификации индивидуальных белоков из полипротеиновой цепочки? Есть ли методы предсказывающие cleavage sites только по информации о цепочке (т.е. не по гомологии). Насколько вообще продвинута теоретическая база в этом вопросе? Я пытался в лтературе рыться, но ссылки в основном на работы по индивидуальным вирусны, геномам.

Ссылкам на обзоры либо на просто ключевые статьи был бы очень признателен!

[identity profile] shvarz.livejournal.com 2012-05-02 08:01 pm (UTC)(link)
Не уверен, что точно понял вопрос, но попробую ответить :)

Специфичность разрезов определяется, понятное дело, протеазой. У каждого вируса она своя, так что теоретически вряд ли можно предсказать точное место разреза в любом произвольном вирусе. Наверно возможно использовать какие-то алгоритмы, которые будут пользоваться общими правилами. Типа - "разрезы маловероятны внутри альфа-спирали". Но я об этом ничего не знаю.

Экспериментально же установить место разреза в неком конкретном вирусе довольно просто - разогнать вирусный преп на геле, вырезать кусочки с каждым из белков, очистить, отсеквинировать первые 5-6 аминокислот.

(no subject)

[identity profile] shvarz.livejournal.com - 2012-05-02 20:54 (UTC) - Expand

[identity profile] sciuro.livejournal.com 2012-05-02 11:25 pm (UTC)(link)
Оффтоп: вы случайно к нам в Бостон на AAI не собираетесь в эти выходные?

[identity profile] shvarz.livejournal.com 2012-05-03 12:16 am (UTC)(link)
Нет, но буду у вас 9-12 сентября на AIDS Vaccine 2012, можно будет пересечься.

(no subject)

[identity profile] sciuro.livejournal.com - 2012-05-03 00:29 (UTC) - Expand