shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-11-22 03:23 pm

Танец p values

В комментах к баейсосрачу в предыдущем посте [livejournal.com profile] kobak дал ссылку на прекрасное видео. Если вдруг кто пропустил:

(Anonymous) 2011-11-22 09:44 pm (UTC)(link)
С нетерпением ждем следующую серию, "Танец доверительных интервалов" ;-)
Если ученый действительно стремится к знанию, формальные методы бессильны: www.newyorker.com/reporting/2010/12/13/101213fa_fact_lehrer

[identity profile] shvarz.livejournal.com 2011-11-22 09:48 pm (UTC)(link)
Да, видел я эту статью и Ионидиса читал. На самом деле, вышеприведенный ролик как раз может являться ответом Ионидису, потому как иллюстрирует, что если при повторении эксперимента p value вышло недостоверным, то это не значит, что первоначальное наблюдение было ложным.

(Anonymous) 2011-11-23 02:12 am (UTC)(link)
Ладно, сарказм не прошел, тогда скажу прямо. Как очевидно из ролика - из самой идеи этого численного эксперимента, человек, который 40 лет учил статистике, сам не понимает, что такое P-value. Однако он предлагает шире использовать доверительные интервалы, понимание которых требует гораздо более высокого уровня абстрактного мышления и практическая интерпретация которых существенно менее прозрачна по сравнению с P-value.

понимание которых требует гораздо более высокого

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 05:13 pm (UTC)(link)
Мне кажется Вы неправы. Величина плюс/минус ошибка измерения понимается болшинством естественных ученых очень хорошо.

Re: понимание которых требует гораздо более высокого

[identity profile] shvarz.livejournal.com 2011-11-23 05:17 pm (UTC)(link)
У нас тут недавно был замечательный пример - испытание вакцины в Таиланде выдало результат 31% плюс-минус 29% эффективности. Соответственно, p value выпало на самой границе значимости и если сделать анализ одним способом, то получалось > 0.05, а если другим - < 0.05.

Так вот споров насчет конкретных цифр и того, означают ли они что вакцина действительно работала или нет было выше крыши. И нижнюю границу доверительного интервала (2%) тоже приводили не раз.

Re: понимание которых требует гораздо более высокого

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 05:53 pm (UTC)(link)
В этом и других подобных случаях важно заметить, что наблюдаемый эффект это процент от процента, причем от очень малого. Т.е. в условных контроле 1% в экспреименте .8% , .2% разницы.

Re: понимание которых требует гораздо более высокого

[identity profile] shvarz.livejournal.com 2011-11-23 05:58 pm (UTC)(link)
С этим как раз в нашей области проблем нет. Все активно отслеживают абсолютные вероятности, потому что они варьируют существенно от популяции к популяции и потому что сначала эксперименты на макаках делали с внутривенным введением большого количества вируса и ничего не работало. Потом кто-то догадался использовать более физиологические условия и много что заработало. Сейчас заражать процентов 10 с первой попытки - золотой стандарт.

(Anonymous) 2011-11-23 09:53 pm (UTC)(link)
Возможно, будет убедительнее, если вместо прямого ответа я предложу нижеследующее упражнение - для тех, кто знаком с понятием доверительного интервала (хотя для профессионального статистика, вероятно, упражнение окажется неинтересным).

Подумайте и четко сформулируйте для себя определение доверительного интервала ("доверительный интервал с уровнем доверия 95% для параметра a распределения P_a - это...").
После этого посмотрите определение в википедии, лучше в английской, но можно и в русской (в русской труднее понять из-за краткости); сравните со своим.
После этого прочитайте вот этот пост, где автор делиться своим недоумением от определения в википедии: users.livejournal.com/_winnie/316159.html
Наконец, прочитайте комментарий Саши Шеня к этому посту. (Он мне кажется абсолютно верным и очень ясным, но если вдруг понадобятся пояснения, я готов попробовать.)

Вопрос: проделав всё это, Вы по-прежнему считаете, что если в какой-то статье результат эксперимента будет выражен доверительным интервалом, у Вас не возникнет особых трудностей в интерпретации этого результата? Или по крайней мере, что интерпретация p-value была бы труднее?

если в какой-то статье результат эксперимента будет

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 11:34 pm (UTC)(link)
Возможно, будет убедительнее, если вместо прямого ответа я отмечу, что ни в оригинальном недоумении _winnie, ни в комментарии к нему "Саши Шеня" речи об итерпретации результатов реального эксперимента из прочитаной научной статьи не идет.