Entry tags:
"The theory that would not die" by Sharon Bertsch McGrayne
"Обычная" статистика (которую всем преподают в школе) задается вопросом: "Какова вероятность полученных данных при условии, что гипотеза А верна?" и отвергает гипотезу, если эта вероятность мала (но при этом ничего не говорит о вероятностях гипотезы А или альтернативных гипотез). Томас Байес в середине 18 века поставил вопрос иначе: "Какова вероятность гипотезы А исходя из полученных данных?" Это гораздо более интуитивно-понятный вопрос и часто нас интересует именно он, что ведет к тому, что всякие биологи вроде меня регулярно скатываются при обсуждении статистики к вероятностям той или иной гипотезы даже при использовании обычной, фреквентистской, статистики (что некорректно). Более того, байесовский подход в его краткой форме даже звучит более логично: Мы начинаем с неких предположений о том, что вероятно, а что нет, потом делаем эксперимент и используем его результаты для того, чтобы уточнить наши начальные предположения. Но история байсовского подхода, изложенная в этой книге, полна эпизодами, когда статистики его категорически отвергали или даже объявляли окончательно дискредитированным и похороненным навсегда (отсюда и название книги).
В некотором роде история Байеса повторяет историю Менделя. Открытие его не получило должного признания после публикации и имя Байеса оказалось бы забытым, если бы не его друг Прайс, который вскользь упомянул о нем Лапласу. Математический гений своего времени, Лаплас независимо пришел к вопросу о вероятностях гипотез, но не знал что делать, если до эксперимента мы не имеем ни малейшего представления о его возможных результатах. Прайс указал Лапласу, что Байес в таком случае просто считал, что все гипотезы равновероятны. Собственно Лаплас и был настоящим основополагателем байесовской статистики, расширив решение частной проблемы над которой работал Байес, до общих принципов. Но после смерти Лапласа в 1827 году теория пришла в упадок и чуть было не оказалась забыта. Более того, байесовский подход приобрел даже дурную репутацию. Проблема была в том, что байсовский подход имеет ряд преимуществ в ситуациях, когда статистических данных очень мало и приходится субъективно оценивать начальные ("до-эксперимента") вероятности гипотез. Этот субъективизм стал неприличным словом, поскольку упор в статистике был на получение как можно более объективной картины.
В начале 20 века байесовский подход вообще ушел в подполье. Именно тогда был расцвет фреквентистской статистики - Фишер, Пирсон, Райт категорически отвергали байеса. Однако интересно, что несмотря на изгнание байеса из теоретической статистики, он начал использоваться на практике - в экономике, в политике. Забавно, что формулы оценки риска, использовавшиеся страховыми компаниями, были основаны на байесе, о чем страховые агенты даже не подозревали. Даже когда люди осознанно использовали байесовский подход, они предпочитали замалчивать этот факт и называли его каким-нибудь иным словом. Что интересно, одними из основных пользователей байесовской методологии оказались военные. И в первой и во второй мировой войне англичане и американцы использовали байесовские методы для самых разных целей: проверки качества снарядов, пристрелки орудий, нахождения подводных лодок. Одним из самых важных применений байеса была расшифровка Тюрингом немецких шифровок, созданных машинами Enigma. Однако большинство этих работ были засекречены и поэтому о пользе байеса за пределами математиков, работавших на военку, никто не знал.
Постепенно однако байес "вышел из чулана" и во второй половине 20 века стал появляться в виде вполне легитимной теории. Настоящий же его расцвет произошел в 80-х годах по двум причинам. Во-первых, развитие компьютеров позволило производить сложные вычисления, необходимые при байесовском подходе. Во-вторых, развитие цепей (или последовательностей?) Маркова позволило упростить многие байесовские вычисления и преодолеть ряд теоретических проблем теории. Сейчас байесовский подход используется очень широко в самых разных областях. Например, в экономике он помогает делать прогнозы продаж, а в интернете используется для фильтрования спама и машинного перевода текста.
В своей книге МкГрейн подробно и довольно интересно описывает всю историю байесовского подхода с массой примеров и с хорошим описанием людей, оказавших влияние на развитие статистики. К сожалению, о самой теории она не говорит почти ничего и понять чем же именно так хорош байесовский подход по этой книге невозможно. Он там появляется как deus ex machina, магическим образом решая сложные проблемы. Вся книга построена по модели: "В году Х была проблема Y и никто не знал, как ее решить. Но математик Z применил байесовский подход и проблема тут же оказалась решена." Поэтому при чтении создается впечатление, что все эти истории являются Just So Stories - красивыми сказками, без реального подтверждения того, что байес сыграл в них действительно важную роль. Может быть и действительно предсказания сделанные байесовским методом были лучше, чем какие-либо иные, но без объяснения подлежащей логики создается ощущение, что реальную эффективность никто не измерял или же что намеренно были отобраны истории в которых байес сработал. В общем, эту книжку стоит читать тем, кто хотя бы поверхностно знаком с байесовским методом и кому интересна история его развития. Я некоторые части прочитал с интересом, а некоторые пролистал. 3.5-4 звездочки из пяти.
В некотором роде история Байеса повторяет историю Менделя. Открытие его не получило должного признания после публикации и имя Байеса оказалось бы забытым, если бы не его друг Прайс, который вскользь упомянул о нем Лапласу. Математический гений своего времени, Лаплас независимо пришел к вопросу о вероятностях гипотез, но не знал что делать, если до эксперимента мы не имеем ни малейшего представления о его возможных результатах. Прайс указал Лапласу, что Байес в таком случае просто считал, что все гипотезы равновероятны. Собственно Лаплас и был настоящим основополагателем байесовской статистики, расширив решение частной проблемы над которой работал Байес, до общих принципов. Но после смерти Лапласа в 1827 году теория пришла в упадок и чуть было не оказалась забыта. Более того, байесовский подход приобрел даже дурную репутацию. Проблема была в том, что байсовский подход имеет ряд преимуществ в ситуациях, когда статистических данных очень мало и приходится субъективно оценивать начальные ("до-эксперимента") вероятности гипотез. Этот субъективизм стал неприличным словом, поскольку упор в статистике был на получение как можно более объективной картины.
В начале 20 века байесовский подход вообще ушел в подполье. Именно тогда был расцвет фреквентистской статистики - Фишер, Пирсон, Райт категорически отвергали байеса. Однако интересно, что несмотря на изгнание байеса из теоретической статистики, он начал использоваться на практике - в экономике, в политике. Забавно, что формулы оценки риска, использовавшиеся страховыми компаниями, были основаны на байесе, о чем страховые агенты даже не подозревали. Даже когда люди осознанно использовали байесовский подход, они предпочитали замалчивать этот факт и называли его каким-нибудь иным словом. Что интересно, одними из основных пользователей байесовской методологии оказались военные. И в первой и во второй мировой войне англичане и американцы использовали байесовские методы для самых разных целей: проверки качества снарядов, пристрелки орудий, нахождения подводных лодок. Одним из самых важных применений байеса была расшифровка Тюрингом немецких шифровок, созданных машинами Enigma. Однако большинство этих работ были засекречены и поэтому о пользе байеса за пределами математиков, работавших на военку, никто не знал.
Постепенно однако байес "вышел из чулана" и во второй половине 20 века стал появляться в виде вполне легитимной теории. Настоящий же его расцвет произошел в 80-х годах по двум причинам. Во-первых, развитие компьютеров позволило производить сложные вычисления, необходимые при байесовском подходе. Во-вторых, развитие цепей (или последовательностей?) Маркова позволило упростить многие байесовские вычисления и преодолеть ряд теоретических проблем теории. Сейчас байесовский подход используется очень широко в самых разных областях. Например, в экономике он помогает делать прогнозы продаж, а в интернете используется для фильтрования спама и машинного перевода текста.
В своей книге МкГрейн подробно и довольно интересно описывает всю историю байесовского подхода с массой примеров и с хорошим описанием людей, оказавших влияние на развитие статистики. К сожалению, о самой теории она не говорит почти ничего и понять чем же именно так хорош байесовский подход по этой книге невозможно. Он там появляется как deus ex machina, магическим образом решая сложные проблемы. Вся книга построена по модели: "В году Х была проблема Y и никто не знал, как ее решить. Но математик Z применил байесовский подход и проблема тут же оказалась решена." Поэтому при чтении создается впечатление, что все эти истории являются Just So Stories - красивыми сказками, без реального подтверждения того, что байес сыграл в них действительно важную роль. Может быть и действительно предсказания сделанные байесовским методом были лучше, чем какие-либо иные, но без объяснения подлежащей логики создается ощущение, что реальную эффективность никто не измерял или же что намеренно были отобраны истории в которых байес сработал. В общем, эту книжку стоит читать тем, кто хотя бы поверхностно знаком с байесовским методом и кому интересна история его развития. Я некоторые части прочитал с интересом, а некоторые пролистал. 3.5-4 звездочки из пяти.
no subject
(Anonymous) 2012-05-01 02:24 pm (UTC)(link)Если серьезно, байесовский и частотный - два основных типа подходов к основаниям статистики, и сейчас нормальные люди, не сектанты, считают (точнее, верят и надеются), что все практически полезнные методы можно обосновать в каждом из подходов, просто какой-то метод может в одном подходе появиться естественно, а в другом - через задницу.
no subject
no subject
Likelihood
no subject
no subject
(no subject)
no subject
no subject
(no subject)
no subject
http://www.ysbl.york.ac.uk/~alexei/tutorial/fig19.jpg
no subject
(no subject)
(no subject)
(no subject)
(no subject)
no subject
(no subject)
no subject
no subject
Фишера любил вставлять всюду :)
В странах Б СССР, полный провал в статистике, специалистов не найти, кто умер, кто уехал
no subject
no subject
no subject
(no subject)
(no subject)
(no subject)
(no subject)
no subject
(no subject)
no subject
Мне в школе никакой статистики не преподавали. Да и в американской школе это никак не обязательный курс.
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
ну вообще-то это неверно.
во-первых "обычная статистика" не задается вопросом "Какова вероятность полученных данных при условии, что гипотеза А верна?". Это легко понять например из следующего примера. Представьте, что у нас есть выборка, набор чисел от 0 до 1, и наша гипотеза состоит в том, что эти числа пришли из равномерного распределения на [0, 1]. Тогда ответ на вопрос "Какова вероятность полученных данных при условии, что гипотеза А верна?" очевидно 0. Означает ли это что нужно всегда отвергать гипотезу? Очевидно нет. Классическая статистика все же задается несколько другими вопросами про данные. Кстати, вопрос о том, какие вопросы осмысленны, а какие нет - тоже предмет статистики. Ну и во-вторых, все же классическое тестирование гипотез всегда предполагает определенную альтернативную гипотезу. Без альтернативной гипотезы тестирование просто бессмысленно.
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
no subject
Ссылкам на обзоры либо на просто ключевые статьи был бы очень признателен!
no subject
Специфичность разрезов определяется, понятное дело, протеазой. У каждого вируса она своя, так что теоретически вряд ли можно предсказать точное место разреза в любом произвольном вирусе. Наверно возможно использовать какие-то алгоритмы, которые будут пользоваться общими правилами. Типа - "разрезы маловероятны внутри альфа-спирали". Но я об этом ничего не знаю.
Экспериментально же установить место разреза в неком конкретном вирусе довольно просто - разогнать вирусный преп на геле, вырезать кусочки с каждым из белков, очистить, отсеквинировать первые 5-6 аминокислот.
(no subject)
(no subject)
(no subject)
no subject
no subject
(no subject)