shvarz: (Default)
[personal profile] shvarz
Некоторое время назад мне попалось на глаза интервью с парой ученых, занимающихся статистической обработкой данных. Начиналось оно с вопроса: "Какое ошибочное представление о статистике больше всего вас раздражает или донимает?" На мое удивление, они ответили, что это интерпретация "p value" как вероятности того, что вакцина или лекарство эффективны. Например, в недавнем испытании вакцины в Тайланде при обработке данных получили p=0.04, что преподносилось журналистами так: "Вероятность того, что эта вакцина действительно работает равна 96%, а с вероятностью 4% она не эффективна и полученные результаты являются делом случая."

Я вообще устыдился и удивился, потому что я такую интерпретацию (как мне кажется) слышал от преподавателя статистики, регулярно слышу ее от ученых, да и сам регулярно использую. Поэтому все интервью я очень подробно и внимательно прочитал, но объяснения тому, почему так говорить неправильно, так и не нашел. Пришлось думать самому, что было непросто, потому что в статистике я не очень силен. И вот что я надумал:

Положим мы проводим некий эксперимент. Например, вытаскиваем N шариков из мешка с черными и белыми шарами. Допустим, мы более менее установили соотношение черных шариков к белым (пусть для простоты это будет 50%-50%), но в каждом конкретном эксперименте мы наблюдаем некое отклонение от этого идеального соотношения - иногда 51-49, иногда (реже) 60-40, иногда (совсем редко) - 100-0. Точные цифры считать не хочу, но если мы вытаскиваем 100 шариков, то вероятность того, что черных (или белых) из них будет меньше 20 - примерно 2.5% (а в сумме, соотвественно - 5%). Теперь положим, что мы произвели над мешком некую операцию, в результате которой соотношение черных и белых шаров должно было измениться. В какую сторону и насколько мы не знаем, но считаем, что измениться должно. В такой ситуации мы, как это и положено, тестируем нулевую гипотезу, которая утверждает, что соотношение не изменилось. Если эту гипотезу отвергнуть, то наша идея о том, что соотношение изменилось, будет верна. И вот, допустим, ставим мы эксперимент по вытаскиванию 100 шариков и обнаруживаем среди них 19 белых и 81 черный. Согласно статистике, этот результат имеет p value <0.05, то есть гипотеза о том, что соотношение шариков не изменилось считается опровергнутой, а эффективность нашей операции считается статистически достоверно доказанной.

Где здесь появляется вероятность? Вероятность тут относится к результатам, которые наблюдались до нашего вмешательства. То есть мы можем говорить о вероятности данного результата в рамках гипотезы о том, что операция никак не повлияла на соотношение шариков в мешке. Как насчет гипотезы о том, что повлияла? Мы ничего не можем сказать о вероятности данного результата в рамках этой гипотезы, потому что мы не знаем точно, повлияла ли операция и если да, то насколько. То есть мы не имеем никакой информации о сравнительной вероятности этих двух гипотез. Все, что мы можем сказать, это то, что в рамках гипотезы об отстутствии влияния, данный результат маловероятен. Я не уверен, что я до конца осознаю различие между этими двумя интерпретациями p value, но чувстую, что оно есть и оно важно. Оно важно, потому что в одном (правильном) случае мы говорим о нашей интерпретации результата, в то время как в случае с "вероятностю" она является сама по себе результатом и интерпретировать тут уже нечего. Если кто это может более внятно объяснить, добро пожаловать в комменты.

Date: 2009-11-13 09:33 pm (UTC)
From: [identity profile] gleb-kudr.livejournal.com
Правильной статистической обработкой можно подогнать любые данные под любой требуемый результат >:(

Date: 2009-11-14 01:39 am (UTC)
From: [identity profile] shvarz.livejournal.com
Во-первых, не любые. Во-вторых, какое отношение это имеет к теме поста?

Date: 2009-11-14 07:35 am (UTC)
From: [identity profile] russian-o.livejournal.com
Значит, обработка не правильная. Точнее, подбор инструментов неграмотный. Это часть работы статистика - правильно выбрать инструменты.

Date: 2009-11-13 09:45 pm (UTC)
From: [identity profile] http://users.livejournal.com/nightblade_/
Если ставится вопрос о статистической достоверности гипотезы об изменении соотношения числа Ч/Б шариков, то опыт произведен некорректно. Вместо одной серии измерений до и после вмешательства, надо произвести M серий измерений по N шариков до и столько же после, потом уже посчитать среднее, матожидание, дисперсию и т.д. Я понятно выразился? На одной серии статистику не сделать, либо число N должно быть очень велико.

Date: 2009-11-13 10:00 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Ну понятно это все, просто в конце концов все равно придем к p, то есть вопрос о ее интерпретации все равно остается. Я этот пример привел просто как интуитивно понятный.

(no subject)

From: [identity profile] http://users.livejournal.com/nightblade_/ - Date: 2009-11-13 10:40 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2009-11-14 01:35 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/nightblade_/ - Date: 2009-11-14 02:30 am (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2009-11-14 03:26 am (UTC) - Expand

Date: 2009-11-13 10:08 pm (UTC)
From: [identity profile] knoxchem.livejournal.com
прочитайте об ошибках первого и второго рода и все сразу станет понятно.
Доверительная вероятность - величина дополнительная к уровню значимости - который является вероятностью допустить ошибку первого рода.
Ошибка первого рода - это когда верная гипотеза отвергнута.
Чувствуете разницу между вероятностью события и вероятностью отвергнуть или принять одну из двух альтернативных гипотез?

Собственно доверительная вероятность - не очень любима статистиками, поскольку её смысл не очень простой (в отличие от уровня значимости) и точно не вполне тот, который ему придают не специалисты.

Date: 2009-11-14 01:36 am (UTC)
From: [identity profile] shvarz.livejournal.com
Честно говоря, нет - не чувствую. То есть возможно, что вы абсолютно правы, но до меня это не доходит. Попонятнее надо объяснить :)

Date: 2009-11-19 01:30 am (UTC)
From: [identity profile] brzhezinski.livejournal.com
прочитайте об ошибках первого и второго рода и все сразу станет понятно.

вообще-то, p-value не имеет абсолютно никакого отношения к ошибкам "первого и второго рода", так что ничего полезного в отношении p-value от чтения про эти ошибки узнать нельзя.

скорее наоборот, можно лишь ещё больше запутаться.

Date: 2009-11-14 12:18 am (UTC)
From: [identity profile] 109.livejournal.com
> Вероятность тут относится к результатам, которые наблюдались до нашего вмешательства

гм. до вмешательства вообще всё могло быть строго определено, например 50-50 "по построению".

Date: 2009-11-14 01:38 am (UTC)
From: [identity profile] shvarz.livejournal.com
Могло, что это меняет?

(no subject)

From: [identity profile] 109.livejournal.com - Date: 2009-11-14 05:39 am (UTC) - Expand

Date: 2009-11-14 12:53 am (UTC)
From: [identity profile] leblon.livejournal.com
Непонятно. Есть две взаимоисключающие гипотезы:

1. Вакцина не дает никакого эффекта.

2. Вакцина дает какой-то эффект (возможно, маленький).

Сумма вероятностей их реализации равна 1.

Если вероятность реализации первой меньше 0.05, то вероятность реализации второй больше 0.95. Что тут неправильно?

Единственное, что приходит в голову: выражение "вакцина эффективна" как бы намекает что эффект от нее существенный, а это вовсе ниоткуда не следует.

Date: 2009-11-14 01:33 am (UTC)
From: [identity profile] shvarz.livejournal.com
Спасибо, мне кажется это первый коммент по делу :)

Видимо дело в том, что из того, что полученный результат попадает в 5% вариантов возможных при "отсутствия эффекта" не следует, что вероятность "отсутствия эффекта" равна 0.05 (а, следовательно, и дальнейшие рассуждения о вероятностях бессмысленны). Как это звучит, логично?

(no subject)

From: [identity profile] leblon.livejournal.com - Date: 2009-11-15 05:56 am (UTC) - Expand

Date: 2009-11-14 02:59 am (UTC)
From: [identity profile] zhevago.livejournal.com
кмк, p value дает вероятность того, что мы ошибочно принимаем альтернативную гипотезу, т.е. ошибка первого рода, как сказали немного выше
то есть это понятие более точное, чем просто эффективность или неэффективность вакцины - наверное это раздражает специалистов... зануды!

Date: 2009-11-14 03:27 am (UTC)
From: [identity profile] shvarz.livejournal.com
ОК, кажется начинаю понимать. Но мне кажется, что статистики именно против такой интерпретации и возражали.

Date: 2009-11-19 12:59 am (UTC)
From: [identity profile] brzhezinski.livejournal.com
кмк, p value дает вероятность того, что мы ошибочно принимаем альтернативную гипотезу, т.е. ошибка первого рода, как сказали немного выше

вовсе нет
это, кстати, одна из типичных ошибочных интерпретаций p-value

Date: 2009-11-14 03:17 am (UTC)
From: [identity profile] kushka.livejournal.com
"Вероятность того, что эта вакцина действительно работает равна 96%, а с вероятностью 4% она не эффективна и полученные результаты являются делом случая."
неправильная интерпретация. Поскольку р-value не показывает вероятность того, что результаты были "делом случая" и не доказывает эффективность вакцины. Она показывает, что если мы считаем результаты делом случая, то вероятность получить такой же статистический результат в следующем эксперименте равна р%. То есть - гипотеза, что результат - дело случая изначальна дана. И в самой постановке вопроса нет никаких ответов по поводу эффективности вакцины. Результат может быть более весомый или менее весомый, и это зависит не только от "истинных значений", но и от выборки и экспериментального дизайна. Поэтому, например, неверно говорить - нет никакой разницы или вакцина не эффективна, если полученное р-value >5%.
Я, к сожалению, тоже не могу это внятно обьяснить, но тем неменее, меня такая безмерная вера во всемогущественный р-value тоже раздражает, хоть я и не статистик.

Date: 2009-11-14 03:32 am (UTC)
From: [identity profile] shvarz.livejournal.com
Ммм, мне кажется, что аргумент статистиков как раз заключается в том, что если мы говорим о вероятностях альтернативных гипотез, то мы вкладываем (неоправданно и ошибочно) безмерную веру во всемогущественный p-value. При правильной же интерпретации p value - не более чем вероятность получить данный результат при одной из гипотез, то есть интерпретация этого факта остается за нами.

(no subject)

From: [identity profile] kushka.livejournal.com - Date: 2009-11-14 04:16 am (UTC) - Expand

(no subject)

From: [identity profile] brzhezinski.livejournal.com - Date: 2009-11-19 01:05 am (UTC) - Expand

Date: 2009-11-14 05:05 am (UTC)
From: [identity profile] angst81.livejournal.com
Добавлю, если это поможет - я думаю, если публикуют доверительный интервал в виде "вакцина помогает 96 мышам плюс минус 1.75 мыши на уровне значимости 0.05, то этот доверительный интервал будет больше (плюс минус, например, 4 мыши) на уровне значимости 0.01, и еще больше на уровне значимости 0.001. Это я описываю стат обработку по Стьюденту из учебника Лакина Биометрия. То есть разброс увеличится, а среднее не изменится.

Date: 2009-11-14 07:38 am (UTC)
From: [identity profile] ariwch.livejournal.com
Уровень значимости, что ли?

Date: 2009-11-14 08:05 am (UTC)
From: [identity profile] gleb-kudr.livejournal.com
Насчет p value.

Это значение говорит нам только о том, соответствуют ли результаты нашего эксперимента некой нулевой гипотезе.

Приведенная неверна: "Вероятность того, что эта вакцина действительно работает равна 96%, а с вероятностью 4% она не эффективна и полученные результаты являются делом случая."
Ибо речи об эффективности там идти не может. Есть некая нулевая гипотеза о работе вакцины. Например, что она вылечивает 50 пациентов из 100. Тогда p value говорит нам о приближении эксперимента именно к нулевой гипотезе, а сама эффективность - совершенно другой параметр. Она может быть и вовсе при этом неэффективна, если вакцина вылечивает 50 пациентов, а отсутствие лечения - 70.

на пальцах

Date: 2009-11-14 08:20 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Допустим, мы изучаем связь между применением некоторого лекарства и выздоровлением пациента. Получаем коэфициент корреляции 0.000001 и p value 0.001. Как нам надо правильно интерпретировать полученый результат? Надо сказать, что на уровне значимости 0.001 связи нет. Как его реальной жизни интерпертируют системные биологи? Пишут, что слабый положительный эффект подтвержден с вероятностью 99.9%. Величину якобы подтвержденной корреляции благоразумно не публикуют.

Date: 2009-11-15 03:26 pm (UTC)
From: [identity profile] tiy.livejournal.com
А ссылку на статью не дадите?

Date: 2009-11-16 03:24 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Нет, это в какой-то рассылке мелькало - удалил давно уже.

Date: 2009-11-16 04:39 pm (UTC)
From: [identity profile] kobak.livejournal.com
Добрый день. Просмотрел все комментарии и очень удивлён, что никто до сих пор не ответил ясно на Ваш вопрос, хотя он совсем не сложный. Вернее, тут есть несколько вроде бы правильных ответов, но я не уверен в их ясности. Если Вы уже и без меня во всём разобрались, то прошу прощения.

Дело заключается в следующем (я буду пояснять на Вашем примере с вакциной).

Пусть в результате тестирования вакцины собраны некоторые данные. Обычно можно посчитать следующие два числа: вероятность получить такие данные, при условии что вакцина работает, и вероятность получить такие данные, при условии что вакцина НЕ работает. Второе число называется p-value. Допустим, это число составляет 4%. То есть: если вакцина НЕ работает, то вероятность получить такие (или еще более экстремальные) данные составляет 4%.

Важно понять, что это НЕ ОЗНАЧАЕТ, что вероятность того, что вакцина не работает, составляет 4% (именно это заблуждение и раздражает статистиков). Более того, оценить ЭТО число, не имея больше никаких сведений, в принципе невозможно.

Математически тут всё упирается в т.н. формулу Байеса. Договоримся обозначать как p(A|B) вероятность того, что А верно при условии, что верно В. Тогда формула Байеса в данном случае гласит:

p(вакцина НЕ работает|данные) = p(данные|вакцина НЕ работает)*p(вакцина НЕ работает)/p(данные) = 4% * p(вакцина НЕ работает)/p(данные).

Эти оставшиеся два множителя могут быть в принципе какими угодно, и в разных паталогических случаях могут иметь существенный эффект.

Например, как оценить "p(вакцина НЕ работает)"? Никак, это число можно только предполагать. Это называется Bayesian prior, априорная вероятность. Если априорная вероятность того, что лекарство работает, высока, то 4% может быть достаточно. Если она очень низка (например, уже проведя эксперимент и получив 4%, Вы узнаете, что лекарство было на самом деле просто чаем), то 4% могут особо ничего не значить.

Date: 2009-11-16 05:57 pm (UTC)
From: [identity profile] argr.livejournal.com
Я не ученый и не занимаюсь статистикой, но рискну вставить свои 5 копеек.

Я вот не пойму, что значит "вероятность того, что вакцина работает (или не работает)". Какова вероятность того, что у меня за спиной есть окно? Оно там либо есть, либо нет. Надо обернуться и посмотреть. Сколько раз не оборачивайся, результат будет тот же самый.

То же самое и с вакциной: она либо работает, либо нет. Но дело в том, что она работает по-хитрому. Если мы применяем к ней методы статистики, то мы как-бы делаем предположение, что вакцина либо действует, либо не действует случайным образом. Т.е. если взять множество совершенно одинаковых людей с совершенно одинаковыми симптомами, то кому-то она поможет, а кому-то нет. И если мысленно провести этот же эксперимент с этими же людьми, то во второй раз выздоровеют не те же самые люди, а какие-то другие, кому во второй раз больше повезет. Это просто предположение, в реальности вакцина может, например, действовать на азиатов и не действовать на европейцев.

Но в нашем предположении вакцина - само воплощение случайности. Мы только не знаем, каков шанс выздороветь. И мы пытаемся его оценить.

Мне очень нравится формулировка "если вакцина работает, то вероятность получить такую статистику - 4%" (эту формулировку можно применять, если мы предположили, что вакцина действует случайным образом). Но сказать "вероятность, что вакцина работает - 96%" - странно. Как можно говорить о вероятности, когда у нас нет пространства элементарных исходов?

(no subject)

From: [identity profile] vasja-iz-aa.livejournal.com - Date: 2009-11-16 06:20 pm (UTC) - Expand

(no subject)

From: [identity profile] kobak.livejournal.com - Date: 2009-11-16 07:02 pm (UTC) - Expand

(no subject)

From: [identity profile] argr.livejournal.com - Date: 2009-11-17 09:00 am (UTC) - Expand

(no subject)

From: [identity profile] kobak.livejournal.com - Date: 2009-11-17 09:38 am (UTC) - Expand

(no subject)

From: [identity profile] brzhezinski.livejournal.com - Date: 2009-11-19 01:54 am (UTC) - Expand

(no subject)

From: [identity profile] kobak.livejournal.com - Date: 2009-11-19 02:13 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2009-11-16 07:42 pm (UTC) - Expand

(no subject)

From: [identity profile] brzhezinski.livejournal.com - Date: 2009-11-19 01:15 am (UTC) - Expand

(no subject)

From: [identity profile] kobak.livejournal.com - Date: 2009-11-19 01:35 pm (UTC) - Expand

(no subject)

From: (Anonymous) - Date: 2009-11-19 01:58 pm (UTC) - Expand

(no subject)

From: [identity profile] kobak.livejournal.com - Date: 2009-11-19 02:16 pm (UTC) - Expand

(no subject)

From: [identity profile] brzhezinski.livejournal.com - Date: 2009-11-19 06:00 pm (UTC) - Expand

(no subject)

From: [identity profile] kobak.livejournal.com - Date: 2009-11-19 06:02 pm (UTC) - Expand

Date: 2009-11-19 02:33 am (UTC)
From: [identity profile] brzhezinski.livejournal.com
Да, я как раз недавно про это тоже упоминал (http://brzhezinski.livejournal.com/1799.html) (в связи с интерпретацией результатов исследований вакцины в Тайланде).

На самом деле, реально глубокое понимание p-value имеет место далеко не у всех статистиков, так что не так уж удивительно, что в научной среде ошибочное представление обо всём этом столь распространено.

Date: 2009-11-19 02:46 am (UTC)
From: [identity profile] shvarz.livejournal.com
Люди, писавшие эти статьи, получили информацию из рук тех, кто нарушил эмбарго. Почему они нарушили эмбарго я не знаю, но подозреваю, что из личных интересов, а не ради правды-матушки. Знаю, что один из авторов процитированных вам статей, после того, как сам посмотрел на данные полностью, извинился перед командой проводившей эти испытания.

(no subject)

From: [identity profile] brzhezinski.livejournal.com - Date: 2009-11-19 02:56 am (UTC) - Expand

Date: 2009-11-21 01:01 am (UTC)
From: [identity profile] myelencephalon.livejournal.com
Попадалась статья про статистику вообще и p-value в частности, вроде интересно написано: http://www.biometrica.tomsk.ru/plavin.htm

Date: 2011-01-09 04:55 pm (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
В примере ошибка. Среднеквадратический разброс количества белых (и чёрных) шаров будет 5, вероятность вытащить меньше 35 белых шаров -- 0.3%, а меньше 20 -- вообще порядка миллиардной.

Date: 2011-01-09 04:58 pm (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
Извиняюсь, это вероятность вытащить меньше белых или чёрных шаров.

Для p<0.05 вам следует брать интервал 40-60.

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2011-01-09 05:04 pm (UTC) - Expand

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Aug. 3rd, 2025 02:01 pm
Powered by Dreamwidth Studios