shvarz | Танец p values

shvarz

В комментах к баейсосрачу в предыдущем посте

kobak дал ссылку на прекрасное видео. Если вдруг кто пропустил:

Flat | Top-Level Comments Only

From:

signamax.livejournal.com

теория верна или неверна это наш бинарный вывод на основании р - по конвенции

если р гуляет - конвенционально - теория не верна

почему р гуляет - может из-за грязи в эксперименте может из-за чего еще

я посмотрю еще раз как он устанавливает разницу
по памяти - там разница очень маленькая при больших хвостах
имхо - в этом и суть претензий
если есть маленькая разница при больших хвостах то и появление экперимента с хорошим р это дело шанса
гипотеза которая ведет к эксперименту с маленькой разницей при больших хвостах - это грубо говоря плохая гипотеза или грязный эксперимент
альтернатива - эксперимент с большой разницей и маленькими хвостами - и у вас не будет гулять р
кстати величина разницы имеет меньшее значение чем величина хвостов

From:

kobak.livejournal.com

"Хвосты" (в данном случае) -- это просто количество шума при измерениях, например естественная изменчивость между разными людьми (в психологических экспериментах). Чаще всего она гораздо больше, чем размер изучаемого эффекта, т.е. standard deviations большие и сильно перекрываются между группами. Это совершенно типичная ситуация, и это не значит, что эффекта нет, или что он "неинтересный" и его не следует изучать.

From:

signamax.livejournal.com

гм
если хвосты приводят в произвольным колебаниям р это как раз и значит что эффекта нет
то есть шума столько что обнаруженный эффект by chance only

то есть на одном эксперименте нашли что эффект есть
стали изучать далее и выяснили что этот эффект обнаружен by chance which means by convention - no effect

если же в вас еще живет вера в то что эффект есть, что он "интересный" - увеличивайте n до величин вам доступных

в принципе эксперимент это модель - по определению
результат эксперимента экстраполируется в психологических экспериментах (да и в любых других) или на всю популяцию или на ее часть по договоренности
то есть идеальным экспериментом будет тот где n равно численности популяции (или ее части на которую вы собираетесь экстраполировать результаты эксперимента)
если в идеальном эксперименте у вас так гуляет р - то эффекта нет
если на n=32 у вас гуляет а вы думаете что вы найдет n при котором не будет гулять - увеличивайте n
в таком случае - опять же - при n=32 вы признаете что эксперимент тухлый и надо делать новый с большим n

From:

kobak.livejournal.com

Мне кажется, у нас какое-то недопонимание. В ролике эффект ЕСТЬ. Конечно, он не очень большой по сравнению с шириной распределения внутри каждой группы, но он есть, и не такой уж и маленький. В жизни распределения очень часто очень широкие: например, если вы изучаете влияние чего-нибудь на IQ, или на рост, или на что угодно другое, то придется иметь дело с тем, что распределение IQ или роста будет очень широкое в обеих группах. Но вопрос в том, есть ли разница между средними значениями.

Так что ролик демонстрирует простую ситуацию: "гипотеза" не просто хорошая, он истинная! Нулевая гипотеза неверна. И при этом распределение p-values (неожиданно?) получается очень широкое. Конечно, если увеличить количество людей в каждой группе, то р будут уменьшаться.

From: (Anonymous)

sorry for eng
i thing we r talking about the same
from dif angles though
my point: u cannot reliably judge your hypothesis true or false if ur p value is dancing by convention

increase ur n, get ur p down, and then place ur judgment

also, as i agreed above, the experiment is better to be not only by p, but again, it is by convention.

if i were a peer and u come to me for a review with the best hypothesis possible and dancing p - i would say the same - increase ur n, make it cleaner.

From:

kobak.livejournal.com

Речь идет о ситуации, когда поставлен один эксперимент и получено одно конкретное значение р. Никакия пляшущие р в такой ситуации невозможны, есть только одно значение. А если кто-то поставил 15 одинаковых экспериментов и получились пляшущие р, то все эти 15 экспериментов надо объединить в один тест, и получится в 15 раз больше данных и снова одно р.

From:

vasja-iz-aa.livejournal.com

если некто поставил 15 одинаковых экспериментов и получились пляшущие р, то вот тут то некте самое время вспомнить про Карло Бонферрони

From:

kobak.livejournal.com

Ну, если эксперименты совершенно одинаковые (15 раз набрали по две группы из 10 человек и сравнили между собой), то Бонферрони не нужен: можно ведь просто объединить данные (получится две группы по 150 человек) и сделать один тест. А если эксперименты немного разные (проверяли действие 15 разных процедур), то тогда нужно, конечно, вспомнить о Бонферрони и уменьшить границы р в 15 раз.

From:

vasja-iz-aa.livejournal.com

в реальной жизни мы никогда не знаем наверняка, одинаковы ли наши эксперименты

From:

komelsky.livejournal.com

Поддерживаю. Речь в данном ролике не столько о неадекватности p, сколько о неадекватности выборок, которыми ограничиываются большинство психологов, по сравнению с масштабом эффектов, которые они изучают.

Я биолог (нейрофизиолог), и у нас например неофициально считается, что эффект меньше 20% - не эффект. Это из немного другой оперы, но логика схожа. N может быть большим, P может быть маленьким, но если сама величина эффекта меньше какого-то интуитивного значения - то эффекта нет, потому что наши системы слишком сложны, и мы просто не в состоянии их полностью контролировать. Это здравый смысл такой. Чтобы утверждать, что эффект есть, он должен прорываться "сквозь" наши нелепые эксперименты, как трава сквозь асфальт. А иначе - это подтасовка данных, потому что "чистых экспериментов" в нашей области не бывает.

Вот и тут похоже. Не в том проблема, что P плохи, а в том, что эксперимент дурацкий.

From:

signamax.livejournal.com

примерно так
то есть гуляем так - смотрим на выборку и predict p или имеем p и представляем себе выборку

при достаточно больших выборках это упражнение теряет практический смысл и доверие к р возрастает

то есть ограничивать посыл автора ролика к утрверждению что
"если видим хороший р в статье то это может ни о чем не говорить, точнее это может говорить что этот р или отражает реальность в эксперименте, или что выборка недостаточна и р случайно такой выпал, и тогда нужно смотреть на другие параметры эксперимента" тут я с ним могу согласится - р by itself недостаточен для того чтобы судить об эксперименте

и тут дело доверия
думаю раньше convention была что если иссдедователи получили хороший эксперимент с "разницей" ну как не посмотри то чтобы не рапортовать все параметры рапортовали только р
потому честность стерлась и р стало единственным за чем стали гоняться что естественно неверно

From:

komelsky.livejournal.com

Про "честность" - очень правдоподобная гипотеза, в самом деле =)

From:

signamax.livejournal.com

или давайте сделаем проще
от противного
возьмем простой известный эксперимент с известным результатом и с маленькими хвостами
и я попрошу вас продемонстрировать мне как там будет гулять р