shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-11-22 03:23 pm

Танец p values

В комментах к баейсосрачу в предыдущем посте [livejournal.com profile] kobak дал ссылку на прекрасное видео. Если вдруг кто пропустил:

(Anonymous) 2011-11-22 09:44 pm (UTC)(link)
С нетерпением ждем следующую серию, "Танец доверительных интервалов" ;-)
Если ученый действительно стремится к знанию, формальные методы бессильны: www.newyorker.com/reporting/2010/12/13/101213fa_fact_lehrer

[identity profile] shvarz.livejournal.com 2011-11-22 09:48 pm (UTC)(link)
Да, видел я эту статью и Ионидиса читал. На самом деле, вышеприведенный ролик как раз может являться ответом Ионидису, потому как иллюстрирует, что если при повторении эксперимента p value вышло недостоверным, то это не значит, что первоначальное наблюдение было ложным.

(Anonymous) 2011-11-23 02:12 am (UTC)(link)
Ладно, сарказм не прошел, тогда скажу прямо. Как очевидно из ролика - из самой идеи этого численного эксперимента, человек, который 40 лет учил статистике, сам не понимает, что такое P-value. Однако он предлагает шире использовать доверительные интервалы, понимание которых требует гораздо более высокого уровня абстрактного мышления и практическая интерпретация которых существенно менее прозрачна по сравнению с P-value.

понимание которых требует гораздо более высокого

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 05:13 pm (UTC)(link)
Мне кажется Вы неправы. Величина плюс/минус ошибка измерения понимается болшинством естественных ученых очень хорошо.

Re: понимание которых требует гораздо более высокого

[identity profile] shvarz.livejournal.com 2011-11-23 05:17 pm (UTC)(link)
У нас тут недавно был замечательный пример - испытание вакцины в Таиланде выдало результат 31% плюс-минус 29% эффективности. Соответственно, p value выпало на самой границе значимости и если сделать анализ одним способом, то получалось > 0.05, а если другим - < 0.05.

Так вот споров насчет конкретных цифр и того, означают ли они что вакцина действительно работала или нет было выше крыши. И нижнюю границу доверительного интервала (2%) тоже приводили не раз.

Re: понимание которых требует гораздо более высокого

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 05:53 pm (UTC)(link)
В этом и других подобных случаях важно заметить, что наблюдаемый эффект это процент от процента, причем от очень малого. Т.е. в условных контроле 1% в экспреименте .8% , .2% разницы.

Re: понимание которых требует гораздо более высокого

[identity profile] shvarz.livejournal.com 2011-11-23 05:58 pm (UTC)(link)
С этим как раз в нашей области проблем нет. Все активно отслеживают абсолютные вероятности, потому что они варьируют существенно от популяции к популяции и потому что сначала эксперименты на макаках делали с внутривенным введением большого количества вируса и ничего не работало. Потом кто-то догадался использовать более физиологические условия и много что заработало. Сейчас заражать процентов 10 с первой попытки - золотой стандарт.

(Anonymous) 2011-11-23 09:53 pm (UTC)(link)
Возможно, будет убедительнее, если вместо прямого ответа я предложу нижеследующее упражнение - для тех, кто знаком с понятием доверительного интервала (хотя для профессионального статистика, вероятно, упражнение окажется неинтересным).

Подумайте и четко сформулируйте для себя определение доверительного интервала ("доверительный интервал с уровнем доверия 95% для параметра a распределения P_a - это...").
После этого посмотрите определение в википедии, лучше в английской, но можно и в русской (в русской труднее понять из-за краткости); сравните со своим.
После этого прочитайте вот этот пост, где автор делиться своим недоумением от определения в википедии: users.livejournal.com/_winnie/316159.html
Наконец, прочитайте комментарий Саши Шеня к этому посту. (Он мне кажется абсолютно верным и очень ясным, но если вдруг понадобятся пояснения, я готов попробовать.)

Вопрос: проделав всё это, Вы по-прежнему считаете, что если в какой-то статье результат эксперимента будет выражен доверительным интервалом, у Вас не возникнет особых трудностей в интерпретации этого результата? Или по крайней мере, что интерпретация p-value была бы труднее?

если в какой-то статье результат эксперимента будет

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 11:34 pm (UTC)(link)
Возможно, будет убедительнее, если вместо прямого ответа я отмечу, что ни в оригинальном недоумении _winnie, ни в комментарии к нему "Саши Шеня" речи об итерпретации результатов реального эксперимента из прочитаной научной статьи не идет.

[identity profile] yurvor.livejournal.com 2011-11-22 09:52 pm (UTC)(link)
Да, отличное видео!

[identity profile] kobak.livejournal.com 2011-11-22 11:32 pm (UTC)(link)
Честно говоря, когда я увидел этот ролик в первый раз, то сначала не поверил. Но проверил -- всё действительно именно так. Если взять параметры распределений и количество наблюдений, как в ролике, то в 50% экспериментов разница будет значимой (p<0.05), а в 50% -- нет. Результат почти не зависит от статистического теста: я попробовал ttest, ranksum and bootstrap.

Думаю, основной практический вывод такой: p<0.05 -- это смехотворно высокая граница (для одного-единственного набора данных). Чтобы доверять результату, нужно либо получить p типа 10^-10, либо провести несколько независимых экспериментов и т.п. Всё это, в общем, и так понятно, но после этого ролика становится совсем уж очевидно: если некий результат держится на одном сравнении c p около 0.05 (или пусть даже 0.001), то доверять ему нельзя.

[identity profile] kobak.livejournal.com 2011-11-23 10:20 am (UTC)(link)
Виноват, я какую-то глупость написал (т.е. не совсем глупость, но к ролику это не относится). В ролике ведь эффект на самом деле есть. Но половина экспериментов его не обнаруживают (а те, которые обнаруживают, получают самые разнообразные p-values); тем хуже для этих экспериментов. А если эффекта на самом деле нет, то тут всё просто: p<0.05 получится в 5% экспериментов -- что все и так знают. Так что мораль этого ролика в том, что не следует слишком легко доверять ОТРИЦАТЕЛЬНЫМ результатам.

Так?

[identity profile] shvarz.livejournal.com 2011-11-23 01:11 pm (UTC)(link)
Мораль - что не следует чрезмерно полагаться на p value, надо смотреть на эксперимент в целом. Величина эффекта и доверительные интервалы - лучшая мера, чем p value (хотя вот анонимный математик выше уверяет, что это не так).

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 05:10 pm (UTC)(link)
http://shvarz.livejournal.com/299941.html?thread=5431461#t5431461

А анонимного математика Вы боюсь неправильно поняли. Он говорит, что автор ролика некорректо рассказывает про недостатки использования p-value потому, что не понимает сам что это такое. Я думаю, что в этом анонимный математик немного неправ и создатель ролика сознательно мухлюет, что бы сделать эти недостатки более выпуклыми, зримыми, яркими, достучаться до общественного мнения. Но это, конечно, субьективные мнения которые вряд ли могут быть подтверждены.


[identity profile] shvarz.livejournal.com 2011-11-23 05:12 pm (UTC)(link)
Ну, между ними двумя (автором и анонимом) я влезать не буду, квалификации не хватает.

[identity profile] kobak.livejournal.com 2011-11-23 06:36 pm (UTC)(link)
Погодите -- в каком смысле "мухлюет" (создатель ролика)?

В прямом смысле.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 08:20 pm (UTC)(link)
Например очень своеобразной табуляцией данных в левом нижнем окне своей программы. Как хорошо видно на 4:20 колонки подписаны традиционными звездочнками. Но звездочками обозначают не интервал от и до, а меньше чем. И автор сам ровно также делает в районе 1:30-1:40 своего ролика. Тогда корректно он должен либо добавлять каждый случай ко всем тем граничным условиям, к которым он подходит(<.01 заодно и меньше чем .05, например), либо не маскировать свою дурацкую четырехстолбовую гистограмму под стандартные уровни значимости.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 08:43 pm (UTC)(link)
четырех читать пяти. прошу прощения, писал текст не глядя на картинку

[identity profile] kobak.livejournal.com 2011-11-23 10:32 pm (UTC)(link)
Да, согласен, это не очень аккуратно, но при этом из ролика вполне понятно, что именно автор делает, так что не назвал бы это мухляжом. Так или иначе, ролик вполне поучительный: о том, каково будет распределение p-values в ситуации реального, но слабого эффекта и недостаточной мощности эксперимента, как-то редко задумываются. То, что распределение оказывается такое широкое -- факт неожиданный (для меня был неожиданный, по крайней мере).

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 10:43 pm (UTC)(link)
Не согласен. Такого нельзя сделать случайно, поэтому подобное распределение подписей под столбцами именно мухлеж. Неаккуратность -- это кофе на клавиатуру пролить

И это не единственная претензия к ролику, я назвал то, что описать проще. Да и то, вот видите, не очень аккуратно назвал пять четырмя.

[identity profile] signamax.livejournal.com 2011-11-23 10:44 pm (UTC)(link)
с этим я согласен
надо смотреть на эксперимент в целом
все остальное - конвенции для простоты

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 04:38 pm (UTC)(link)
значит правильно я вчера удержался от комментариев

[identity profile] signamax.livejournal.com 2011-11-23 02:05 am (UTC)(link)
он говорит - you can simply cannot trust p

в то время как на самом деле you can simply cannot trust the experiment

то есть reliability of p would be a measure of the quality of the experiment and the hypothesis

[identity profile] shvarz.livejournal.com 2011-11-23 01:13 pm (UTC)(link)
Он показывает, что при всех более-менее реалистичных параметрах p ненадежно. Так что дело не в постановке эксперимента.

[identity profile] signamax.livejournal.com 2011-11-23 06:33 pm (UTC)(link)
я увидел это по другому
я увидел что люди ставят экспеример и если видят устраивающее их р - тут же публикуют
если они повторяют эксперимент и р уже не то - они это игнорируют
в то же время если у вас хорошая гипотеза то сколько бы не проводили эксперимент - у вас будет хорошее устойчивое р ибо вы установили закономерность
если гипотеза не отражает реальность - так у вас и р будет гулять
гуляющее р лишь говорит что то что вы наэксперементировали у вас получилось by chance only а не в результате закономерности


[identity profile] shvarz.livejournal.com 2011-11-23 06:38 pm (UTC)(link)
Посмотрите внимательней - он начианет с того, что сам вручную устанавливает разницу между контрольной и экспериментальной популяцией. То есть еще до эксперимента мы точно знаем, что разница есть. Однако p все равно гуляет. То есть даже если ваша гипотеза правильно отражает реальность, то очень часто вы будете получать большую p и делать ошибку второго рода. И если вы получили маленькое p и опубликовались, а кто-то повторяет ваш эксперимент и его p получается большим, то это вовсе не значит, что ваша теория неверна.

[identity profile] signamax.livejournal.com 2011-11-23 06:46 pm (UTC)(link)
теория верна или неверна это наш бинарный вывод на основании р - по конвенции

если р гуляет - конвенционально - теория не верна

почему р гуляет - может из-за грязи в эксперименте может из-за чего еще

я посмотрю еще раз как он устанавливает разницу
по памяти - там разница очень маленькая при больших хвостах
имхо - в этом и суть претензий
если есть маленькая разница при больших хвостах то и появление экперимента с хорошим р это дело шанса
гипотеза которая ведет к эксперименту с маленькой разницей при больших хвостах - это грубо говоря плохая гипотеза или грязный эксперимент
альтернатива - эксперимент с большой разницей и маленькими хвостами - и у вас не будет гулять р
кстати величина разницы имеет меньшее значение чем величина хвостов

[identity profile] kobak.livejournal.com 2011-11-23 10:16 pm (UTC)(link)
"Хвосты" (в данном случае) -- это просто количество шума при измерениях, например естественная изменчивость между разными людьми (в психологических экспериментах). Чаще всего она гораздо больше, чем размер изучаемого эффекта, т.е. standard deviations большие и сильно перекрываются между группами. Это совершенно типичная ситуация, и это не значит, что эффекта нет, или что он "неинтересный" и его не следует изучать.

[identity profile] signamax.livejournal.com 2011-11-23 10:27 pm (UTC)(link)
гм
если хвосты приводят в произвольным колебаниям р это как раз и значит что эффекта нет
то есть шума столько что обнаруженный эффект by chance only

то есть на одном эксперименте нашли что эффект есть
стали изучать далее и выяснили что этот эффект обнаружен by chance which means by convention - no effect

если же в вас еще живет вера в то что эффект есть, что он "интересный" - увеличивайте n до величин вам доступных

в принципе эксперимент это модель - по определению
результат эксперимента экстраполируется в психологических экспериментах (да и в любых других) или на всю популяцию или на ее часть по договоренности
то есть идеальным экспериментом будет тот где n равно численности популяции (или ее части на которую вы собираетесь экстраполировать результаты эксперимента)
если в идеальном эксперименте у вас так гуляет р - то эффекта нет
если на n=32 у вас гуляет а вы думаете что вы найдет n при котором не будет гулять - увеличивайте n
в таком случае - опять же - при n=32 вы признаете что эксперимент тухлый и надо делать новый с большим n

[identity profile] kobak.livejournal.com 2011-11-23 10:51 pm (UTC)(link)
Мне кажется, у нас какое-то недопонимание. В ролике эффект ЕСТЬ. Конечно, он не очень большой по сравнению с шириной распределения внутри каждой группы, но он есть, и не такой уж и маленький. В жизни распределения очень часто очень широкие: например, если вы изучаете влияние чего-нибудь на IQ, или на рост, или на что угодно другое, то придется иметь дело с тем, что распределение IQ или роста будет очень широкое в обеих группах. Но вопрос в том, есть ли разница между средними значениями.

Так что ролик демонстрирует простую ситуацию: "гипотеза" не просто хорошая, он истинная! Нулевая гипотеза неверна. И при этом распределение p-values (неожиданно?) получается очень широкое. Конечно, если увеличить количество людей в каждой группе, то р будут уменьшаться.

(Anonymous) 2011-11-23 11:42 pm (UTC)(link)
sorry for eng
i thing we r talking about the same
from dif angles though
my point: u cannot reliably judge your hypothesis true or false if ur p value is dancing by convention

increase ur n, get ur p down, and then place ur judgment

also, as i agreed above, the experiment is better to be not only by p, but again, it is by convention.

if i were a peer and u come to me for a review with the best hypothesis possible and dancing p - i would say the same - increase ur n, make it cleaner.

[identity profile] kobak.livejournal.com 2011-11-24 10:30 am (UTC)(link)
Речь идет о ситуации, когда поставлен один эксперимент и получено одно конкретное значение р. Никакия пляшущие р в такой ситуации невозможны, есть только одно значение. А если кто-то поставил 15 одинаковых экспериментов и получились пляшущие р, то все эти 15 экспериментов надо объединить в один тест, и получится в 15 раз больше данных и снова одно р.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-24 07:43 pm (UTC)(link)
если некто поставил 15 одинаковых экспериментов и получились пляшущие р, то вот тут то некте самое время вспомнить про Карло Бонферрони

[identity profile] kobak.livejournal.com 2011-11-24 07:56 pm (UTC)(link)
Ну, если эксперименты совершенно одинаковые (15 раз набрали по две группы из 10 человек и сравнили между собой), то Бонферрони не нужен: можно ведь просто объединить данные (получится две группы по 150 человек) и сделать один тест. А если эксперименты немного разные (проверяли действие 15 разных процедур), то тогда нужно, конечно, вспомнить о Бонферрони и уменьшить границы р в 15 раз.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-24 08:40 pm (UTC)(link)
в реальной жизни мы никогда не знаем наверняка, одинаковы ли наши эксперименты

[identity profile] komelsky.livejournal.com 2011-12-01 03:44 pm (UTC)(link)
Поддерживаю. Речь в данном ролике не столько о неадекватности p, сколько о неадекватности выборок, которыми ограничиываются большинство психологов, по сравнению с масштабом эффектов, которые они изучают.

Я биолог (нейрофизиолог), и у нас например неофициально считается, что эффект меньше 20% - не эффект. Это из немного другой оперы, но логика схожа. N может быть большим, P может быть маленьким, но если сама величина эффекта меньше какого-то интуитивного значения - то эффекта нет, потому что наши системы слишком сложны, и мы просто не в состоянии их полностью контролировать. Это здравый смысл такой. Чтобы утверждать, что эффект есть, он должен прорываться "сквозь" наши нелепые эксперименты, как трава сквозь асфальт. А иначе - это подтасовка данных, потому что "чистых экспериментов" в нашей области не бывает.

Вот и тут похоже. Не в том проблема, что P плохи, а в том, что эксперимент дурацкий.

[identity profile] signamax.livejournal.com 2011-12-01 04:20 pm (UTC)(link)
примерно так
то есть гуляем так - смотрим на выборку и predict p или имеем p и представляем себе выборку

при достаточно больших выборках это упражнение теряет практический смысл и доверие к р возрастает

то есть ограничивать посыл автора ролика к утрверждению что
"если видим хороший р в статье то это может ни о чем не говорить, точнее это может говорить что этот р или отражает реальность в эксперименте, или что выборка недостаточна и р случайно такой выпал, и тогда нужно смотреть на другие параметры эксперимента" тут я с ним могу согласится - р by itself недостаточен для того чтобы судить об эксперименте

и тут дело доверия
думаю раньше convention была что если иссдедователи получили хороший эксперимент с "разницей" ну как не посмотри то чтобы не рапортовать все параметры рапортовали только р
потому честность стерлась и р стало единственным за чем стали гоняться что естественно неверно

[identity profile] komelsky.livejournal.com 2011-12-01 04:41 pm (UTC)(link)
Про "честность" - очень правдоподобная гипотеза, в самом деле =)

[identity profile] signamax.livejournal.com 2011-11-23 10:40 pm (UTC)(link)
или давайте сделаем проще
от противного
возьмем простой известный эксперимент с известным результатом и с маленькими хвостами
и я попрошу вас продемонстрировать мне как там будет гулять р

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 03:38 am (UTC)(link)
У меня тоже есть ссылка на замечательный логический парадокс. Если кто пропустил.

http://www.google.com/search?q=%D0%B3%D0%B4%D0%B5+%D1%80%D1%83%D0%B1%D0%BB%D1%8C

[identity profile] gigacyan.livejournal.com 2011-11-23 08:31 am (UTC)(link)
Это не логических парадокс, это трюк с подменой вычитания сложением. Логически там как раз все просто и ясно.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 04:44 pm (UTC)(link)
Трюк, да? И рубль на самом деле не пропал никуда? Спасибо Вам огромное, просто камень с души сняли.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-25 06:55 pm (UTC)(link)
вот эта презентация выглядит сильно интересней, для иучения проблем связаных с излишним доверием к p-value. я, правда, проглядел ее лишь мельком, надо бы потом почитать подробнее, а все ли там правильно нарисовано
www.vigg.ru/fileadmin/materials/bonferroni.ppt

payday loans 894 5197

(Anonymous) 2012-10-20 08:47 pm (UTC)(link)
[url=http://usapaydayloansonlinetoday.com/#3547]payday loans[/url] - payday loans (http://usapaydayloansonlinetoday.com/#20054) , http://usapaydayloansonlinetoday.com/#16521 payday loans

payday loans 473 20735

(Anonymous) 2012-10-22 02:28 pm (UTC)(link)
[url=http://paydayloansveryquickly.com/#7920]payday loans[/url] - payday loans (http://paydayloansveryquickly.com/#4787) , http://paydayloansveryquickly.com/#16480 payday loans

cialis online 506 4520

(Anonymous) 2012-10-22 03:44 pm (UTC)(link)
[url=http://buycialisonlinesafe.com/#2181]buy cialis[/url] - buy cialis (http://buycialisonlinesafe.com/#5023) , http://buycialisonlinesafe.com/#8767 buy generic cialis