shvarz | Танец p values

С нетерпением ждем следующую серию, "Танец доверительных интервалов" ;-)
Если ученый действительно стремится к знанию, формальные методы бессильны: www.newyorker.com/reporting/2010/12/13/101213fa_fact_lehrer

Да, видел я эту статью и Ионидиса читал. На самом деле, вышеприведенный ролик как раз может являться ответом Ионидису, потому как иллюстрирует, что если при повторении эксперимента p value вышло недостоверным, то это не значит, что первоначальное наблюдение было ложным.

Ладно, сарказм не прошел, тогда скажу прямо. Как очевидно из ролика - из самой идеи этого численного эксперимента, человек, который 40 лет учил статистике, сам не понимает, что такое P-value. Однако он предлагает шире использовать доверительные интервалы, понимание которых требует гораздо более высокого уровня абстрактного мышления и практическая интерпретация которых существенно менее прозрачна по сравнению с P-value.

Мне кажется Вы неправы. Величина плюс/минус ошибка измерения понимается болшинством естественных ученых очень хорошо.

У нас тут недавно был замечательный пример - испытание вакцины в Таиланде выдало результат 31% плюс-минус 29% эффективности. Соответственно, p value выпало на самой границе значимости и если сделать анализ одним способом, то получалось > 0.05, а если другим - < 0.05.

Так вот споров насчет конкретных цифр и того, означают ли они что вакцина действительно работала или нет было выше крыши. И нижнюю границу доверительного интервала (2%) тоже приводили не раз.

В этом и других подобных случаях важно заметить, что наблюдаемый эффект это процент от процента, причем от очень малого. Т.е. в условных контроле 1% в экспреименте .8% , .2% разницы.

С этим как раз в нашей области проблем нет. Все активно отслеживают абсолютные вероятности, потому что они варьируют существенно от популяции к популяции и потому что сначала эксперименты на макаках делали с внутривенным введением большого количества вируса и ничего не работало. Потом кто-то догадался использовать более физиологические условия и много что заработало. Сейчас заражать процентов 10 с первой попытки - золотой стандарт.

Возможно, будет убедительнее, если вместо прямого ответа я предложу нижеследующее упражнение - для тех, кто знаком с понятием доверительного интервала (хотя для профессионального статистика, вероятно, упражнение окажется неинтересным).

Подумайте и четко сформулируйте для себя определение доверительного интервала ("доверительный интервал с уровнем доверия 95% для параметра a распределения P_a - это...").
После этого посмотрите определение в википедии, лучше в английской, но можно и в русской (в русской труднее понять из-за краткости); сравните со своим.
После этого прочитайте вот этот пост, где автор делиться своим недоумением от определения в википедии: users.livejournal.com/_winnie/316159.html
Наконец, прочитайте комментарий Саши Шеня к этому посту. (Он мне кажется абсолютно верным и очень ясным, но если вдруг понадобятся пояснения, я готов попробовать.)

Вопрос: проделав всё это, Вы по-прежнему считаете, что если в какой-то статье результат эксперимента будет выражен доверительным интервалом, у Вас не возникнет особых трудностей в интерпретации этого результата? Или по крайней мере, что интерпретация p-value была бы труднее?

Возможно, будет убедительнее, если вместо прямого ответа я отмечу, что ни в оригинальном недоумении _winnie, ни в комментарии к нему "Саши Шеня" речи об итерпретации результатов реального эксперимента из прочитаной научной статьи не идет.

Да, отличное видео!

Честно говоря, когда я увидел этот ролик в первый раз, то сначала не поверил. Но проверил -- всё действительно именно так. Если взять параметры распределений и количество наблюдений, как в ролике, то в 50% экспериментов разница будет значимой (p<0.05), а в 50% -- нет. Результат почти не зависит от статистического теста: я попробовал ttest, ranksum and bootstrap.

Думаю, основной практический вывод такой: p<0.05 -- это смехотворно высокая граница (для одного-единственного набора данных). Чтобы доверять результату, нужно либо получить p типа 10^-10, либо провести несколько независимых экспериментов и т.п. Всё это, в общем, и так понятно, но после этого ролика становится совсем уж очевидно: если некий результат держится на одном сравнении c p около 0.05 (или пусть даже 0.001), то доверять ему нельзя.

Виноват, я какую-то глупость написал (т.е. не совсем глупость, но к ролику это не относится). В ролике ведь эффект на самом деле есть. Но половина экспериментов его не обнаруживают (а те, которые обнаруживают, получают самые разнообразные p-values); тем хуже для этих экспериментов. А если эффекта на самом деле нет, то тут всё просто: p<0.05 получится в 5% экспериментов -- что все и так знают. Так что мораль этого ролика в том, что не следует слишком легко доверять ОТРИЦАТЕЛЬНЫМ результатам.

Так?

Мораль - что не следует чрезмерно полагаться на p value, надо смотреть на эксперимент в целом. Величина эффекта и доверительные интервалы - лучшая мера, чем p value (хотя вот анонимный математик выше уверяет, что это не так).

http://shvarz.livejournal.com/299941.html?thread=5431461#t5431461

А анонимного математика Вы боюсь неправильно поняли. Он говорит, что автор ролика некорректо рассказывает про недостатки использования p-value потому, что не понимает сам что это такое. Я думаю, что в этом анонимный математик немного неправ и создатель ролика сознательно мухлюет, что бы сделать эти недостатки более выпуклыми, зримыми, яркими, достучаться до общественного мнения. Но это, конечно, субьективные мнения которые вряд ли могут быть подтверждены.

Ну, между ними двумя (автором и анонимом) я влезать не буду, квалификации не хватает.

Погодите -- в каком смысле "мухлюет" (создатель ролика)?

Например очень своеобразной табуляцией данных в левом нижнем окне своей программы. Как хорошо видно на 4:20 колонки подписаны традиционными звездочнками. Но звездочками обозначают не интервал от и до, а меньше чем. И автор сам ровно также делает в районе 1:30-1:40 своего ролика. Тогда корректно он должен либо добавлять каждый случай ко всем тем граничным условиям, к которым он подходит(<.01 заодно и меньше чем .05, например), либо не маскировать свою дурацкую четырехстолбовую гистограмму под стандартные уровни значимости.

четырех читать пяти. прошу прощения, писал текст не глядя на картинку

Да, согласен, это не очень аккуратно, но при этом из ролика вполне понятно, что именно автор делает, так что не назвал бы это мухляжом. Так или иначе, ролик вполне поучительный: о том, каково будет распределение p-values в ситуации реального, но слабого эффекта и недостаточной мощности эксперимента, как-то редко задумываются. То, что распределение оказывается такое широкое -- факт неожиданный (для меня был неожиданный, по крайней мере).

Не согласен. Такого нельзя сделать случайно, поэтому подобное распределение подписей под столбцами именно мухлеж. Неаккуратность -- это кофе на клавиатуру пролить

И это не единственная претензия к ролику, я назвал то, что описать проще. Да и то, вот видите, не очень аккуратно назвал пять четырмя.

с этим я согласен
надо смотреть на эксперимент в целом
все остальное - конвенции для простоты

значит правильно я вчера удержался от комментариев

он говорит - you can simply cannot trust p

в то время как на самом деле you can simply cannot trust the experiment

то есть reliability of p would be a measure of the quality of the experiment and the hypothesis

Он показывает, что при всех более-менее реалистичных параметрах p ненадежно. Так что дело не в постановке эксперимента.

я увидел это по другому
я увидел что люди ставят экспеример и если видят устраивающее их р - тут же публикуют
если они повторяют эксперимент и р уже не то - они это игнорируют
в то же время если у вас хорошая гипотеза то сколько бы не проводили эксперимент - у вас будет хорошее устойчивое р ибо вы установили закономерность
если гипотеза не отражает реальность - так у вас и р будет гулять
гуляющее р лишь говорит что то что вы наэксперементировали у вас получилось by chance only а не в результате закономерности

Посмотрите внимательней - он начианет с того, что сам вручную устанавливает разницу между контрольной и экспериментальной популяцией. То есть еще до эксперимента мы точно знаем, что разница есть. Однако p все равно гуляет. То есть даже если ваша гипотеза правильно отражает реальность, то очень часто вы будете получать большую p и делать ошибку второго рода. И если вы получили маленькое p и опубликовались, а кто-то повторяет ваш эксперимент и его p получается большим, то это вовсе не значит, что ваша теория неверна.

теория верна или неверна это наш бинарный вывод на основании р - по конвенции

если р гуляет - конвенционально - теория не верна

почему р гуляет - может из-за грязи в эксперименте может из-за чего еще

я посмотрю еще раз как он устанавливает разницу
по памяти - там разница очень маленькая при больших хвостах
имхо - в этом и суть претензий
если есть маленькая разница при больших хвостах то и появление экперимента с хорошим р это дело шанса
гипотеза которая ведет к эксперименту с маленькой разницей при больших хвостах - это грубо говоря плохая гипотеза или грязный эксперимент
альтернатива - эксперимент с большой разницей и маленькими хвостами - и у вас не будет гулять р
кстати величина разницы имеет меньшее значение чем величина хвостов

"Хвосты" (в данном случае) -- это просто количество шума при измерениях, например естественная изменчивость между разными людьми (в психологических экспериментах). Чаще всего она гораздо больше, чем размер изучаемого эффекта, т.е. standard deviations большие и сильно перекрываются между группами. Это совершенно типичная ситуация, и это не значит, что эффекта нет, или что он "неинтересный" и его не следует изучать.

гм
если хвосты приводят в произвольным колебаниям р это как раз и значит что эффекта нет
то есть шума столько что обнаруженный эффект by chance only

то есть на одном эксперименте нашли что эффект есть
стали изучать далее и выяснили что этот эффект обнаружен by chance which means by convention - no effect

если же в вас еще живет вера в то что эффект есть, что он "интересный" - увеличивайте n до величин вам доступных

в принципе эксперимент это модель - по определению
результат эксперимента экстраполируется в психологических экспериментах (да и в любых других) или на всю популяцию или на ее часть по договоренности
то есть идеальным экспериментом будет тот где n равно численности популяции (или ее части на которую вы собираетесь экстраполировать результаты эксперимента)
если в идеальном эксперименте у вас так гуляет р - то эффекта нет
если на n=32 у вас гуляет а вы думаете что вы найдет n при котором не будет гулять - увеличивайте n
в таком случае - опять же - при n=32 вы признаете что эксперимент тухлый и надо делать новый с большим n

Мне кажется, у нас какое-то недопонимание. В ролике эффект ЕСТЬ. Конечно, он не очень большой по сравнению с шириной распределения внутри каждой группы, но он есть, и не такой уж и маленький. В жизни распределения очень часто очень широкие: например, если вы изучаете влияние чего-нибудь на IQ, или на рост, или на что угодно другое, то придется иметь дело с тем, что распределение IQ или роста будет очень широкое в обеих группах. Но вопрос в том, есть ли разница между средними значениями.

Так что ролик демонстрирует простую ситуацию: "гипотеза" не просто хорошая, он истинная! Нулевая гипотеза неверна. И при этом распределение p-values (неожиданно?) получается очень широкое. Конечно, если увеличить количество людей в каждой группе, то р будут уменьшаться.

sorry for eng
i thing we r talking about the same
from dif angles though
my point: u cannot reliably judge your hypothesis true or false if ur p value is dancing by convention

increase ur n, get ur p down, and then place ur judgment

also, as i agreed above, the experiment is better to be not only by p, but again, it is by convention.

if i were a peer and u come to me for a review with the best hypothesis possible and dancing p - i would say the same - increase ur n, make it cleaner.

Речь идет о ситуации, когда поставлен один эксперимент и получено одно конкретное значение р. Никакия пляшущие р в такой ситуации невозможны, есть только одно значение. А если кто-то поставил 15 одинаковых экспериментов и получились пляшущие р, то все эти 15 экспериментов надо объединить в один тест, и получится в 15 раз больше данных и снова одно р.

если некто поставил 15 одинаковых экспериментов и получились пляшущие р, то вот тут то некте самое время вспомнить про Карло Бонферрони

Ну, если эксперименты совершенно одинаковые (15 раз набрали по две группы из 10 человек и сравнили между собой), то Бонферрони не нужен: можно ведь просто объединить данные (получится две группы по 150 человек) и сделать один тест. А если эксперименты немного разные (проверяли действие 15 разных процедур), то тогда нужно, конечно, вспомнить о Бонферрони и уменьшить границы р в 15 раз.

в реальной жизни мы никогда не знаем наверняка, одинаковы ли наши эксперименты

Поддерживаю. Речь в данном ролике не столько о неадекватности p, сколько о неадекватности выборок, которыми ограничиываются большинство психологов, по сравнению с масштабом эффектов, которые они изучают.

Я биолог (нейрофизиолог), и у нас например неофициально считается, что эффект меньше 20% - не эффект. Это из немного другой оперы, но логика схожа. N может быть большим, P может быть маленьким, но если сама величина эффекта меньше какого-то интуитивного значения - то эффекта нет, потому что наши системы слишком сложны, и мы просто не в состоянии их полностью контролировать. Это здравый смысл такой. Чтобы утверждать, что эффект есть, он должен прорываться "сквозь" наши нелепые эксперименты, как трава сквозь асфальт. А иначе - это подтасовка данных, потому что "чистых экспериментов" в нашей области не бывает.

Вот и тут похоже. Не в том проблема, что P плохи, а в том, что эксперимент дурацкий.

примерно так
то есть гуляем так - смотрим на выборку и predict p или имеем p и представляем себе выборку

при достаточно больших выборках это упражнение теряет практический смысл и доверие к р возрастает

то есть ограничивать посыл автора ролика к утрверждению что
"если видим хороший р в статье то это может ни о чем не говорить, точнее это может говорить что этот р или отражает реальность в эксперименте, или что выборка недостаточна и р случайно такой выпал, и тогда нужно смотреть на другие параметры эксперимента" тут я с ним могу согласится - р by itself недостаточен для того чтобы судить об эксперименте

и тут дело доверия
думаю раньше convention была что если иссдедователи получили хороший эксперимент с "разницей" ну как не посмотри то чтобы не рапортовать все параметры рапортовали только р
потому честность стерлась и р стало единственным за чем стали гоняться что естественно неверно

Про "честность" - очень правдоподобная гипотеза, в самом деле =)

или давайте сделаем проще
от противного
возьмем простой известный эксперимент с известным результатом и с маленькими хвостами
и я попрошу вас продемонстрировать мне как там будет гулять р

У меня тоже есть ссылка на замечательный логический парадокс. Если кто пропустил.

http://www.google.com/search?q=%D0%B3%D0%B4%D0%B5+%D1%80%D1%83%D0%B1%D0%BB%D1%8C

Это не логических парадокс, это трюк с подменой вычитания сложением. Логически там как раз все просто и ясно.

Трюк, да? И рубль на самом деле не пропал никуда? Спасибо Вам огромное, просто камень с души сняли.

вот эта презентация выглядит сильно интересней, для иучения проблем связаных с излишним доверием к p-value. я, правда, проглядел ее лишь мельком, надо бы потом почитать подробнее, а все ли там правильно нарисовано
www.vigg.ru/fileadmin/materials/bonferroni.ppt

[url=http://usapaydayloansonlinetoday.com/#3547]payday loans[/url] - payday loans (http://usapaydayloansonlinetoday.com/#20054) , http://usapaydayloansonlinetoday.com/#16521 payday loans

[url=http://paydayloansveryquickly.com/#7920]payday loans[/url] - payday loans (http://paydayloansveryquickly.com/#4787) , http://paydayloansveryquickly.com/#16480 payday loans

[url=http://buycialisonlinesafe.com/#2181]buy cialis[/url] - buy cialis (http://buycialisonlinesafe.com/#5023) , http://buycialisonlinesafe.com/#8767 buy generic cialis

Танец p values

no subject

no subject

no subject

понимание которых требует гораздо более высокого

Re: понимание которых требует гораздо более высокого

Re: понимание которых требует гораздо более высокого

Re: понимание которых требует гораздо более высокого

no subject

если в какой-то статье результат эксперимента будет

no subject

no subject

no subject

no subject

no subject

no subject

no subject

В прямом смысле.

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

payday loans 894 5197

payday loans 473 20735

cialis online 506 4520