Что бесит статистиков
Nov. 13th, 2009 03:47 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Некоторое время назад мне попалось на глаза интервью с парой ученых, занимающихся статистической обработкой данных. Начиналось оно с вопроса: "Какое ошибочное представление о статистике больше всего вас раздражает или донимает?" На мое удивление, они ответили, что это интерпретация "p value" как вероятности того, что вакцина или лекарство эффективны. Например, в недавнем испытании вакцины в Тайланде при обработке данных получили p=0.04, что преподносилось журналистами так: "Вероятность того, что эта вакцина действительно работает равна 96%, а с вероятностью 4% она не эффективна и полученные результаты являются делом случая."
Я вообще устыдился и удивился, потому что я такую интерпретацию (как мне кажется) слышал от преподавателя статистики, регулярно слышу ее от ученых, да и сам регулярно использую. Поэтому все интервью я очень подробно и внимательно прочитал, но объяснения тому, почему так говорить неправильно, так и не нашел. Пришлось думать самому, что было непросто, потому что в статистике я не очень силен. И вот что я надумал:
Положим мы проводим некий эксперимент. Например, вытаскиваем N шариков из мешка с черными и белыми шарами. Допустим, мы более менее установили соотношение черных шариков к белым (пусть для простоты это будет 50%-50%), но в каждом конкретном эксперименте мы наблюдаем некое отклонение от этого идеального соотношения - иногда 51-49, иногда (реже) 60-40, иногда (совсем редко) - 100-0. Точные цифры считать не хочу, но если мы вытаскиваем 100 шариков, то вероятность того, что черных (или белых) из них будет меньше 20 - примерно 2.5% (а в сумме, соотвественно - 5%). Теперь положим, что мы произвели над мешком некую операцию, в результате которой соотношение черных и белых шаров должно было измениться. В какую сторону и насколько мы не знаем, но считаем, что измениться должно. В такой ситуации мы, как это и положено, тестируем нулевую гипотезу, которая утверждает, что соотношение не изменилось. Если эту гипотезу отвергнуть, то наша идея о том, что соотношение изменилось, будет верна. И вот, допустим, ставим мы эксперимент по вытаскиванию 100 шариков и обнаруживаем среди них 19 белых и 81 черный. Согласно статистике, этот результат имеет p value <0.05, то есть гипотеза о том, что соотношение шариков не изменилось считается опровергнутой, а эффективность нашей операции считается статистически достоверно доказанной.
Где здесь появляется вероятность? Вероятность тут относится к результатам, которые наблюдались до нашего вмешательства. То есть мы можем говорить о вероятности данного результата в рамках гипотезы о том, что операция никак не повлияла на соотношение шариков в мешке. Как насчет гипотезы о том, что повлияла? Мы ничего не можем сказать о вероятности данного результата в рамках этой гипотезы, потому что мы не знаем точно, повлияла ли операция и если да, то насколько. То есть мы не имеем никакой информации о сравнительной вероятности этих двух гипотез. Все, что мы можем сказать, это то, что в рамках гипотезы об отстутствии влияния, данный результат маловероятен. Я не уверен, что я до конца осознаю различие между этими двумя интерпретациями p value, но чувстую, что оно есть и оно важно. Оно важно, потому что в одном (правильном) случае мы говорим о нашей интерпретации результата, в то время как в случае с "вероятностю" она является сама по себе результатом и интерпретировать тут уже нечего. Если кто это может более внятно объяснить, добро пожаловать в комменты.
Я вообще устыдился и удивился, потому что я такую интерпретацию (как мне кажется) слышал от преподавателя статистики, регулярно слышу ее от ученых, да и сам регулярно использую. Поэтому все интервью я очень подробно и внимательно прочитал, но объяснения тому, почему так говорить неправильно, так и не нашел. Пришлось думать самому, что было непросто, потому что в статистике я не очень силен. И вот что я надумал:
Положим мы проводим некий эксперимент. Например, вытаскиваем N шариков из мешка с черными и белыми шарами. Допустим, мы более менее установили соотношение черных шариков к белым (пусть для простоты это будет 50%-50%), но в каждом конкретном эксперименте мы наблюдаем некое отклонение от этого идеального соотношения - иногда 51-49, иногда (реже) 60-40, иногда (совсем редко) - 100-0. Точные цифры считать не хочу, но если мы вытаскиваем 100 шариков, то вероятность того, что черных (или белых) из них будет меньше 20 - примерно 2.5% (а в сумме, соотвественно - 5%). Теперь положим, что мы произвели над мешком некую операцию, в результате которой соотношение черных и белых шаров должно было измениться. В какую сторону и насколько мы не знаем, но считаем, что измениться должно. В такой ситуации мы, как это и положено, тестируем нулевую гипотезу, которая утверждает, что соотношение не изменилось. Если эту гипотезу отвергнуть, то наша идея о том, что соотношение изменилось, будет верна. И вот, допустим, ставим мы эксперимент по вытаскиванию 100 шариков и обнаруживаем среди них 19 белых и 81 черный. Согласно статистике, этот результат имеет p value <0.05, то есть гипотеза о том, что соотношение шариков не изменилось считается опровергнутой, а эффективность нашей операции считается статистически достоверно доказанной.
Где здесь появляется вероятность? Вероятность тут относится к результатам, которые наблюдались до нашего вмешательства. То есть мы можем говорить о вероятности данного результата в рамках гипотезы о том, что операция никак не повлияла на соотношение шариков в мешке. Как насчет гипотезы о том, что повлияла? Мы ничего не можем сказать о вероятности данного результата в рамках этой гипотезы, потому что мы не знаем точно, повлияла ли операция и если да, то насколько. То есть мы не имеем никакой информации о сравнительной вероятности этих двух гипотез. Все, что мы можем сказать, это то, что в рамках гипотезы об отстутствии влияния, данный результат маловероятен. Я не уверен, что я до конца осознаю различие между этими двумя интерпретациями p value, но чувстую, что оно есть и оно важно. Оно важно, потому что в одном (правильном) случае мы говорим о нашей интерпретации результата, в то время как в случае с "вероятностю" она является сама по себе результатом и интерпретировать тут уже нечего. Если кто это может более внятно объяснить, добро пожаловать в комменты.
no subject
Date: 2009-11-13 09:33 pm (UTC)no subject
Date: 2009-11-14 01:39 am (UTC)(no subject)
From:статистику начинают приплетать
From:no subject
Date: 2009-11-14 07:35 am (UTC)no subject
Date: 2009-11-13 09:45 pm (UTC)no subject
Date: 2009-11-13 10:00 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2009-11-13 10:08 pm (UTC)Доверительная вероятность - величина дополнительная к уровню значимости - который является вероятностью допустить ошибку первого рода.
Ошибка первого рода - это когда верная гипотеза отвергнута.
Чувствуете разницу между вероятностью события и вероятностью отвергнуть или принять одну из двух альтернативных гипотез?
Собственно доверительная вероятность - не очень любима статистиками, поскольку её смысл не очень простой (в отличие от уровня значимости) и точно не вполне тот, который ему придают не специалисты.
no subject
Date: 2009-11-14 01:36 am (UTC)no subject
Date: 2009-11-19 01:30 am (UTC)вообще-то, p-value не имеет абсолютно никакого отношения к ошибкам "первого и второго рода", так что ничего полезного в отношении p-value от чтения про эти ошибки узнать нельзя.
скорее наоборот, можно лишь ещё больше запутаться.
no subject
Date: 2009-11-14 12:18 am (UTC)гм. до вмешательства вообще всё могло быть строго определено, например 50-50 "по построению".
no subject
Date: 2009-11-14 01:38 am (UTC)(no subject)
From:no subject
Date: 2009-11-14 12:53 am (UTC)1. Вакцина не дает никакого эффекта.
2. Вакцина дает какой-то эффект (возможно, маленький).
Сумма вероятностей их реализации равна 1.
Если вероятность реализации первой меньше 0.05, то вероятность реализации второй больше 0.95. Что тут неправильно?
Единственное, что приходит в голову: выражение "вакцина эффективна" как бы намекает что эффект от нее существенный, а это вовсе ниоткуда не следует.
no subject
Date: 2009-11-14 01:33 am (UTC)Видимо дело в том, что из того, что полученный результат попадает в 5% вариантов возможных при "отсутствия эффекта" не следует, что вероятность "отсутствия эффекта" равна 0.05 (а, следовательно, и дальнейшие рассуждения о вероятностях бессмысленны). Как это звучит, логично?
(no subject)
From:no subject
Date: 2009-11-14 02:59 am (UTC)то есть это понятие более точное, чем просто эффективность или неэффективность вакцины - наверное это раздражает специалистов... зануды!
no subject
Date: 2009-11-14 03:27 am (UTC)no subject
Date: 2009-11-19 12:59 am (UTC)вовсе нет
это, кстати, одна из типичных ошибочных интерпретаций p-value
no subject
Date: 2009-11-14 03:17 am (UTC)неправильная интерпретация. Поскольку р-value не показывает вероятность того, что результаты были "делом случая" и не доказывает эффективность вакцины. Она показывает, что если мы считаем результаты делом случая, то вероятность получить такой же статистический результат в следующем эксперименте равна р%. То есть - гипотеза, что результат - дело случая изначальна дана. И в самой постановке вопроса нет никаких ответов по поводу эффективности вакцины. Результат может быть более весомый или менее весомый, и это зависит не только от "истинных значений", но и от выборки и экспериментального дизайна. Поэтому, например, неверно говорить - нет никакой разницы или вакцина не эффективна, если полученное р-value >5%.
Я, к сожалению, тоже не могу это внятно обьяснить, но тем неменее, меня такая безмерная вера во всемогущественный р-value тоже раздражает, хоть я и не статистик.
no subject
Date: 2009-11-14 03:32 am (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2009-11-14 05:05 am (UTC)no subject
Date: 2009-11-14 07:38 am (UTC)no subject
Date: 2009-11-14 08:05 am (UTC)Это значение говорит нам только о том, соответствуют ли результаты нашего эксперимента некой нулевой гипотезе.
Приведенная неверна: "Вероятность того, что эта вакцина действительно работает равна 96%, а с вероятностью 4% она не эффективна и полученные результаты являются делом случая."
Ибо речи об эффективности там идти не может. Есть некая нулевая гипотеза о работе вакцины. Например, что она вылечивает 50 пациентов из 100. Тогда p value говорит нам о приближении эксперимента именно к нулевой гипотезе, а сама эффективность - совершенно другой параметр. Она может быть и вовсе при этом неэффективна, если вакцина вылечивает 50 пациентов, а отсутствие лечения - 70.
на пальцах
Date: 2009-11-14 08:20 am (UTC)no subject
Date: 2009-11-15 03:26 pm (UTC)no subject
Date: 2009-11-16 03:24 pm (UTC)no subject
Date: 2009-11-16 04:39 pm (UTC)Дело заключается в следующем (я буду пояснять на Вашем примере с вакциной).
Пусть в результате тестирования вакцины собраны некоторые данные. Обычно можно посчитать следующие два числа: вероятность получить такие данные, при условии что вакцина работает, и вероятность получить такие данные, при условии что вакцина НЕ работает. Второе число называется p-value. Допустим, это число составляет 4%. То есть: если вакцина НЕ работает, то вероятность получить такие (или еще более экстремальные) данные составляет 4%.
Важно понять, что это НЕ ОЗНАЧАЕТ, что вероятность того, что вакцина не работает, составляет 4% (именно это заблуждение и раздражает статистиков). Более того, оценить ЭТО число, не имея больше никаких сведений, в принципе невозможно.
Математически тут всё упирается в т.н. формулу Байеса. Договоримся обозначать как p(A|B) вероятность того, что А верно при условии, что верно В. Тогда формула Байеса в данном случае гласит:
p(вакцина НЕ работает|данные) = p(данные|вакцина НЕ работает)*p(вакцина НЕ работает)/p(данные) = 4% * p(вакцина НЕ работает)/p(данные).
Эти оставшиеся два множителя могут быть в принципе какими угодно, и в разных паталогических случаях могут иметь существенный эффект.
Например, как оценить "p(вакцина НЕ работает)"? Никак, это число можно только предполагать. Это называется Bayesian prior, априорная вероятность. Если априорная вероятность того, что лекарство работает, высока, то 4% может быть достаточно. Если она очень низка (например, уже проведя эксперимент и получив 4%, Вы узнаете, что лекарство было на самом деле просто чаем), то 4% могут особо ничего не значить.
no subject
Date: 2009-11-16 05:57 pm (UTC)Я вот не пойму, что значит "вероятность того, что вакцина работает (или не работает)". Какова вероятность того, что у меня за спиной есть окно? Оно там либо есть, либо нет. Надо обернуться и посмотреть. Сколько раз не оборачивайся, результат будет тот же самый.
То же самое и с вакциной: она либо работает, либо нет. Но дело в том, что она работает по-хитрому. Если мы применяем к ней методы статистики, то мы как-бы делаем предположение, что вакцина либо действует, либо не действует случайным образом. Т.е. если взять множество совершенно одинаковых людей с совершенно одинаковыми симптомами, то кому-то она поможет, а кому-то нет. И если мысленно провести этот же эксперимент с этими же людьми, то во второй раз выздоровеют не те же самые люди, а какие-то другие, кому во второй раз больше повезет. Это просто предположение, в реальности вакцина может, например, действовать на азиатов и не действовать на европейцев.
Но в нашем предположении вакцина - само воплощение случайности. Мы только не знаем, каков шанс выздороветь. И мы пытаемся его оценить.
Мне очень нравится формулировка "если вакцина работает, то вероятность получить такую статистику - 4%" (эту формулировку можно применять, если мы предположили, что вакцина действует случайным образом). Но сказать "вероятность, что вакцина работает - 96%" - странно. Как можно говорить о вероятности, когда у нас нет пространства элементарных исходов?
(no subject)
From:(no subject)
From:С этим подходом есть очень много проблем, разной степе
From:Re: С этим подходом есть очень много проблем, разной сте
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From: (Anonymous) - Date: 2009-11-19 01:58 pm (UTC) - Expand(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2009-11-19 02:33 am (UTC)На самом деле, реально глубокое понимание p-value имеет место далеко не у всех статистиков, так что не так уж удивительно, что в научной среде ошибочное представление обо всём этом столь распространено.
no subject
Date: 2009-11-19 02:46 am (UTC)(no subject)
From:no subject
Date: 2009-11-21 01:01 am (UTC)no subject
Date: 2011-01-09 04:55 pm (UTC)no subject
Date: 2011-01-09 04:58 pm (UTC)Для p<0.05 вам следует брать интервал 40-60.
(no subject)
From: