![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
"Обычная" статистика (которую всем преподают в школе) задается вопросом: "Какова вероятность полученных данных при условии, что гипотеза А верна?" и отвергает гипотезу, если эта вероятность мала (но при этом ничего не говорит о вероятностях гипотезы А или альтернативных гипотез). Томас Байес в середине 18 века поставил вопрос иначе: "Какова вероятность гипотезы А исходя из полученных данных?" Это гораздо более интуитивно-понятный вопрос и часто нас интересует именно он, что ведет к тому, что всякие биологи вроде меня регулярно скатываются при обсуждении статистики к вероятностям той или иной гипотезы даже при использовании обычной, фреквентистской, статистики (что некорректно). Более того, байесовский подход в его краткой форме даже звучит более логично: Мы начинаем с неких предположений о том, что вероятно, а что нет, потом делаем эксперимент и используем его результаты для того, чтобы уточнить наши начальные предположения. Но история байсовского подхода, изложенная в этой книге, полна эпизодами, когда статистики его категорически отвергали или даже объявляли окончательно дискредитированным и похороненным навсегда (отсюда и название книги).
В некотором роде история Байеса повторяет историю Менделя. Открытие его не получило должного признания после публикации и имя Байеса оказалось бы забытым, если бы не его друг Прайс, который вскользь упомянул о нем Лапласу. Математический гений своего времени, Лаплас независимо пришел к вопросу о вероятностях гипотез, но не знал что делать, если до эксперимента мы не имеем ни малейшего представления о его возможных результатах. Прайс указал Лапласу, что Байес в таком случае просто считал, что все гипотезы равновероятны. Собственно Лаплас и был настоящим основополагателем байесовской статистики, расширив решение частной проблемы над которой работал Байес, до общих принципов. Но после смерти Лапласа в 1827 году теория пришла в упадок и чуть было не оказалась забыта. Более того, байесовский подход приобрел даже дурную репутацию. Проблема была в том, что байсовский подход имеет ряд преимуществ в ситуациях, когда статистических данных очень мало и приходится субъективно оценивать начальные ("до-эксперимента") вероятности гипотез. Этот субъективизм стал неприличным словом, поскольку упор в статистике был на получение как можно более объективной картины.
В начале 20 века байесовский подход вообще ушел в подполье. Именно тогда был расцвет фреквентистской статистики - Фишер, Пирсон, Райт категорически отвергали байеса. Однако интересно, что несмотря на изгнание байеса из теоретической статистики, он начал использоваться на практике - в экономике, в политике. Забавно, что формулы оценки риска, использовавшиеся страховыми компаниями, были основаны на байесе, о чем страховые агенты даже не подозревали. Даже когда люди осознанно использовали байесовский подход, они предпочитали замалчивать этот факт и называли его каким-нибудь иным словом. Что интересно, одними из основных пользователей байесовской методологии оказались военные. И в первой и во второй мировой войне англичане и американцы использовали байесовские методы для самых разных целей: проверки качества снарядов, пристрелки орудий, нахождения подводных лодок. Одним из самых важных применений байеса была расшифровка Тюрингом немецких шифровок, созданных машинами Enigma. Однако большинство этих работ были засекречены и поэтому о пользе байеса за пределами математиков, работавших на военку, никто не знал.
Постепенно однако байес "вышел из чулана" и во второй половине 20 века стал появляться в виде вполне легитимной теории. Настоящий же его расцвет произошел в 80-х годах по двум причинам. Во-первых, развитие компьютеров позволило производить сложные вычисления, необходимые при байесовском подходе. Во-вторых, развитие цепей (или последовательностей?) Маркова позволило упростить многие байесовские вычисления и преодолеть ряд теоретических проблем теории. Сейчас байесовский подход используется очень широко в самых разных областях. Например, в экономике он помогает делать прогнозы продаж, а в интернете используется для фильтрования спама и машинного перевода текста.
В своей книге МкГрейн подробно и довольно интересно описывает всю историю байесовского подхода с массой примеров и с хорошим описанием людей, оказавших влияние на развитие статистики. К сожалению, о самой теории она не говорит почти ничего и понять чем же именно так хорош байесовский подход по этой книге невозможно. Он там появляется как deus ex machina, магическим образом решая сложные проблемы. Вся книга построена по модели: "В году Х была проблема Y и никто не знал, как ее решить. Но математик Z применил байесовский подход и проблема тут же оказалась решена." Поэтому при чтении создается впечатление, что все эти истории являются Just So Stories - красивыми сказками, без реального подтверждения того, что байес сыграл в них действительно важную роль. Может быть и действительно предсказания сделанные байесовским методом были лучше, чем какие-либо иные, но без объяснения подлежащей логики создается ощущение, что реальную эффективность никто не измерял или же что намеренно были отобраны истории в которых байес сработал. В общем, эту книжку стоит читать тем, кто хотя бы поверхностно знаком с байесовским методом и кому интересна история его развития. Я некоторые части прочитал с интересом, а некоторые пролистал. 3.5-4 звездочки из пяти.
В некотором роде история Байеса повторяет историю Менделя. Открытие его не получило должного признания после публикации и имя Байеса оказалось бы забытым, если бы не его друг Прайс, который вскользь упомянул о нем Лапласу. Математический гений своего времени, Лаплас независимо пришел к вопросу о вероятностях гипотез, но не знал что делать, если до эксперимента мы не имеем ни малейшего представления о его возможных результатах. Прайс указал Лапласу, что Байес в таком случае просто считал, что все гипотезы равновероятны. Собственно Лаплас и был настоящим основополагателем байесовской статистики, расширив решение частной проблемы над которой работал Байес, до общих принципов. Но после смерти Лапласа в 1827 году теория пришла в упадок и чуть было не оказалась забыта. Более того, байесовский подход приобрел даже дурную репутацию. Проблема была в том, что байсовский подход имеет ряд преимуществ в ситуациях, когда статистических данных очень мало и приходится субъективно оценивать начальные ("до-эксперимента") вероятности гипотез. Этот субъективизм стал неприличным словом, поскольку упор в статистике был на получение как можно более объективной картины.
В начале 20 века байесовский подход вообще ушел в подполье. Именно тогда был расцвет фреквентистской статистики - Фишер, Пирсон, Райт категорически отвергали байеса. Однако интересно, что несмотря на изгнание байеса из теоретической статистики, он начал использоваться на практике - в экономике, в политике. Забавно, что формулы оценки риска, использовавшиеся страховыми компаниями, были основаны на байесе, о чем страховые агенты даже не подозревали. Даже когда люди осознанно использовали байесовский подход, они предпочитали замалчивать этот факт и называли его каким-нибудь иным словом. Что интересно, одними из основных пользователей байесовской методологии оказались военные. И в первой и во второй мировой войне англичане и американцы использовали байесовские методы для самых разных целей: проверки качества снарядов, пристрелки орудий, нахождения подводных лодок. Одним из самых важных применений байеса была расшифровка Тюрингом немецких шифровок, созданных машинами Enigma. Однако большинство этих работ были засекречены и поэтому о пользе байеса за пределами математиков, работавших на военку, никто не знал.
Постепенно однако байес "вышел из чулана" и во второй половине 20 века стал появляться в виде вполне легитимной теории. Настоящий же его расцвет произошел в 80-х годах по двум причинам. Во-первых, развитие компьютеров позволило производить сложные вычисления, необходимые при байесовском подходе. Во-вторых, развитие цепей (или последовательностей?) Маркова позволило упростить многие байесовские вычисления и преодолеть ряд теоретических проблем теории. Сейчас байесовский подход используется очень широко в самых разных областях. Например, в экономике он помогает делать прогнозы продаж, а в интернете используется для фильтрования спама и машинного перевода текста.
В своей книге МкГрейн подробно и довольно интересно описывает всю историю байесовского подхода с массой примеров и с хорошим описанием людей, оказавших влияние на развитие статистики. К сожалению, о самой теории она не говорит почти ничего и понять чем же именно так хорош байесовский подход по этой книге невозможно. Он там появляется как deus ex machina, магическим образом решая сложные проблемы. Вся книга построена по модели: "В году Х была проблема Y и никто не знал, как ее решить. Но математик Z применил байесовский подход и проблема тут же оказалась решена." Поэтому при чтении создается впечатление, что все эти истории являются Just So Stories - красивыми сказками, без реального подтверждения того, что байес сыграл в них действительно важную роль. Может быть и действительно предсказания сделанные байесовским методом были лучше, чем какие-либо иные, но без объяснения подлежащей логики создается ощущение, что реальную эффективность никто не измерял или же что намеренно были отобраны истории в которых байес сработал. В общем, эту книжку стоит читать тем, кто хотя бы поверхностно знаком с байесовским методом и кому интересна история его развития. Я некоторые части прочитал с интересом, а некоторые пролистал. 3.5-4 звездочки из пяти.
no subject
Date: 2012-05-02 06:20 am (UTC)ну вообще-то это неверно.
во-первых "обычная статистика" не задается вопросом "Какова вероятность полученных данных при условии, что гипотеза А верна?". Это легко понять например из следующего примера. Представьте, что у нас есть выборка, набор чисел от 0 до 1, и наша гипотеза состоит в том, что эти числа пришли из равномерного распределения на [0, 1]. Тогда ответ на вопрос "Какова вероятность полученных данных при условии, что гипотеза А верна?" очевидно 0. Означает ли это что нужно всегда отвергать гипотезу? Очевидно нет. Классическая статистика все же задается несколько другими вопросами про данные. Кстати, вопрос о том, какие вопросы осмысленны, а какие нет - тоже предмет статистики. Ну и во-вторых, все же классическое тестирование гипотез всегда предполагает определенную альтернативную гипотезу. Без альтернативной гипотезы тестирование просто бессмысленно.
no subject
Date: 2012-05-02 09:50 am (UTC)no subject
Date: 2012-05-02 10:37 am (UTC)no subject
Date: 2012-05-02 11:05 am (UTC)no subject
Date: 2012-05-02 11:15 am (UTC)про типы альтернативных гипотез в t-тесте
вообще, любой стат. тест - это всегда tradeoff между ошибками первого и второго родов. Если альтернативная гипотеза не определена, то эти ошибки посчитать нельзя и тест бессмысленнен.
no subject
Date: 2012-05-02 02:59 pm (UTC)no subject
Date: 2012-05-03 08:18 pm (UTC)для т.н. point hypothesis, а именно, гипотезе что значение какого-то параметра, например \theta равна какой-нибудь константе (например 0), действительно чаще всего (но не обязательно, возьмите например те же односторонние t-тесты) H_1 будет сформулирована как "\theta не равна 0". При этом конечно подразумевается, что алтернативная гипотеза утверждает, что данные пришли из того класса распределений, которое обговорили с самого начала, итд итп. Выражение "нулевая гипотеза не верна" слишком общее, для такой альтернативной гипотезы нельзя посчитать ошибки первого и второго родов, т.е. нельзя ничего разумного сказать о тесте вообще.
в целом, говорить что альтернатива "нулевая гипотеза не верна", это примерно то же самое, что говорить "оцениваемый параметр попадает в доверительный интервал с вероятностью 95%" - математически абсолютно некорректно, но если и вы и собеседник держите в уме правильную интерпретацию, то общаться можно.
no subject
Date: 2012-05-03 08:22 pm (UTC)Я как ни напишу чего про статистику, так меня обязательно со всех сторон поправляют. Я уже смирился.
no subject
Date: 2012-05-07 09:16 am (UTC)no subject
Date: 2012-05-07 09:15 am (UTC)