shvarz: (Default)
[personal profile] shvarz
"Обычная" статистика (которую всем преподают в школе) задается вопросом: "Какова вероятность полученных данных при условии, что гипотеза А верна?" и отвергает гипотезу, если эта вероятность мала (но при этом ничего не говорит о вероятностях гипотезы А или альтернативных гипотез). Томас Байес в середине 18 века поставил вопрос иначе: "Какова вероятность гипотезы А исходя из полученных данных?" Это гораздо более интуитивно-понятный вопрос и часто нас интересует именно он, что ведет к тому, что всякие биологи вроде меня регулярно скатываются при обсуждении статистики к вероятностям той или иной гипотезы даже при использовании обычной, фреквентистской, статистики (что некорректно). Более того, байесовский подход в его краткой форме даже звучит более логично: Мы начинаем с неких предположений о том, что вероятно, а что нет, потом делаем эксперимент и используем его результаты для того, чтобы уточнить наши начальные предположения. Но история байсовского подхода, изложенная в этой книге, полна эпизодами, когда статистики его категорически отвергали или даже объявляли окончательно дискредитированным и похороненным навсегда (отсюда и название книги).

В некотором роде история Байеса повторяет историю Менделя. Открытие его не получило должного признания после публикации и имя Байеса оказалось бы забытым, если бы не его друг Прайс, который вскользь упомянул о нем Лапласу. Математический гений своего времени, Лаплас независимо пришел к вопросу о вероятностях гипотез, но не знал что делать, если до эксперимента мы не имеем ни малейшего представления о его возможных результатах. Прайс указал Лапласу, что Байес в таком случае просто считал, что все гипотезы равновероятны. Собственно Лаплас и был настоящим основополагателем байесовской статистики, расширив решение частной проблемы над которой работал Байес, до общих принципов. Но после смерти Лапласа в 1827 году теория пришла в упадок и чуть было не оказалась забыта. Более того, байесовский подход приобрел даже дурную репутацию. Проблема была в том, что байсовский подход имеет ряд преимуществ в ситуациях, когда статистических данных очень мало и приходится субъективно оценивать начальные ("до-эксперимента") вероятности гипотез. Этот субъективизм стал неприличным словом, поскольку упор в статистике был на получение как можно более объективной картины.

В начале 20 века байесовский подход вообще ушел в подполье. Именно тогда был расцвет фреквентистской статистики - Фишер, Пирсон, Райт категорически отвергали байеса. Однако интересно, что несмотря на изгнание байеса из теоретической статистики, он начал использоваться на практике - в экономике, в политике. Забавно, что формулы оценки риска, использовавшиеся страховыми компаниями, были основаны на байесе, о чем страховые агенты даже не подозревали. Даже когда люди осознанно использовали байесовский подход, они предпочитали замалчивать этот факт и называли его каким-нибудь иным словом. Что интересно, одними из основных пользователей байесовской методологии оказались военные. И в первой и во второй мировой войне англичане и американцы использовали байесовские методы для самых разных целей: проверки качества снарядов, пристрелки орудий, нахождения подводных лодок. Одним из самых важных применений байеса была расшифровка Тюрингом немецких шифровок, созданных машинами Enigma. Однако большинство этих работ были засекречены и поэтому о пользе байеса за пределами математиков, работавших на военку, никто не знал.

Постепенно однако байес "вышел из чулана" и во второй половине 20 века стал появляться в виде вполне легитимной теории. Настоящий же его расцвет произошел в 80-х годах по двум причинам. Во-первых, развитие компьютеров позволило производить сложные вычисления, необходимые при байесовском подходе. Во-вторых, развитие цепей (или последовательностей?) Маркова позволило упростить многие байесовские вычисления и преодолеть ряд теоретических проблем теории. Сейчас байесовский подход используется очень широко в самых разных областях. Например, в экономике он помогает делать прогнозы продаж, а в интернете используется для фильтрования спама и машинного перевода текста.

В своей книге МкГрейн подробно и довольно интересно описывает всю историю байесовского подхода с массой примеров и с хорошим описанием людей, оказавших влияние на развитие статистики. К сожалению, о самой теории она не говорит почти ничего и понять чем же именно так хорош байесовский подход по этой книге невозможно. Он там появляется как deus ex machina, магическим образом решая сложные проблемы. Вся книга построена по модели: "В году Х была проблема Y и никто не знал, как ее решить. Но математик Z применил байесовский подход и проблема тут же оказалась решена." Поэтому при чтении создается впечатление, что все эти истории являются Just So Stories - красивыми сказками, без реального подтверждения того, что байес сыграл в них действительно важную роль. Может быть и действительно предсказания сделанные байесовским методом были лучше, чем какие-либо иные, но без объяснения подлежащей логики создается ощущение, что реальную эффективность никто не измерял или же что намеренно были отобраны истории в которых байес сработал. В общем, эту книжку стоит читать тем, кто хотя бы поверхностно знаком с байесовским методом и кому интересна история его развития. Я некоторые части прочитал с интересом, а некоторые пролистал. 3.5-4 звездочки из пяти.
Page 3 of 3 << [1] [2] [3] >>

Date: 2012-05-03 12:29 am (UTC)
From: [identity profile] sciuro.livejournal.com
О, давайте обязательно!

Date: 2012-05-03 08:18 pm (UTC)
From: [identity profile] http://users.livejournal.com/__rico/
нет, все же не так
для т.н. point hypothesis, а именно, гипотезе что значение какого-то параметра, например \theta равна какой-нибудь константе (например 0), действительно чаще всего (но не обязательно, возьмите например те же односторонние t-тесты) H_1 будет сформулирована как "\theta не равна 0". При этом конечно подразумевается, что алтернативная гипотеза утверждает, что данные пришли из того класса распределений, которое обговорили с самого начала, итд итп. Выражение "нулевая гипотеза не верна" слишком общее, для такой альтернативной гипотезы нельзя посчитать ошибки первого и второго родов, т.е. нельзя ничего разумного сказать о тесте вообще.

в целом, говорить что альтернатива "нулевая гипотеза не верна", это примерно то же самое, что говорить "оцениваемый параметр попадает в доверительный интервал с вероятностью 95%" - математически абсолютно некорректно, но если и вы и собеседник держите в уме правильную интерпретацию, то общаться можно.

Date: 2012-05-03 08:22 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Не совру, что все понял, но поверю :)
Я как ни напишу чего про статистику, так меня обязательно со всех сторон поправляют. Я уже смирился.

Date: 2012-05-07 09:15 am (UTC)
From: [identity profile] antchi.livejournal.com
Ну почему бессмысленно? Критерии значимости не предполагают уточнения альтернативной гипотезы. Другое дело, что мощность критерия имеет смысл считать или моделировать только при наличии альтернативы. Но это уже для математиков развлечение.

Date: 2012-05-07 09:16 am (UTC)
From: [identity profile] antchi.livejournal.com
Я статистик, и мне именно так и кажется :)
Page 3 of 3 << [1] [2] [3] >>

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 7th, 2025 08:49 am
Powered by Dreamwidth Studios