я увидел это по другому я увидел что люди ставят экспеример и если видят устраивающее их р - тут же публикуют если они повторяют эксперимент и р уже не то - они это игнорируют в то же время если у вас хорошая гипотеза то сколько бы не проводили эксперимент - у вас будет хорошее устойчивое р ибо вы установили закономерность если гипотеза не отражает реальность - так у вас и р будет гулять гуляющее р лишь говорит что то что вы наэксперементировали у вас получилось by chance only а не в результате закономерности
Посмотрите внимательней - он начианет с того, что сам вручную устанавливает разницу между контрольной и экспериментальной популяцией. То есть еще до эксперимента мы точно знаем, что разница есть. Однако p все равно гуляет. То есть даже если ваша гипотеза правильно отражает реальность, то очень часто вы будете получать большую p и делать ошибку второго рода. И если вы получили маленькое p и опубликовались, а кто-то повторяет ваш эксперимент и его p получается большим, то это вовсе не значит, что ваша теория неверна.
теория верна или неверна это наш бинарный вывод на основании р - по конвенции
если р гуляет - конвенционально - теория не верна
почему р гуляет - может из-за грязи в эксперименте может из-за чего еще
я посмотрю еще раз как он устанавливает разницу по памяти - там разница очень маленькая при больших хвостах имхо - в этом и суть претензий если есть маленькая разница при больших хвостах то и появление экперимента с хорошим р это дело шанса гипотеза которая ведет к эксперименту с маленькой разницей при больших хвостах - это грубо говоря плохая гипотеза или грязный эксперимент альтернатива - эксперимент с большой разницей и маленькими хвостами - и у вас не будет гулять р кстати величина разницы имеет меньшее значение чем величина хвостов
"Хвосты" (в данном случае) -- это просто количество шума при измерениях, например естественная изменчивость между разными людьми (в психологических экспериментах). Чаще всего она гораздо больше, чем размер изучаемого эффекта, т.е. standard deviations большие и сильно перекрываются между группами. Это совершенно типичная ситуация, и это не значит, что эффекта нет, или что он "неинтересный" и его не следует изучать.
гм если хвосты приводят в произвольным колебаниям р это как раз и значит что эффекта нет то есть шума столько что обнаруженный эффект by chance only
то есть на одном эксперименте нашли что эффект есть стали изучать далее и выяснили что этот эффект обнаружен by chance which means by convention - no effect
если же в вас еще живет вера в то что эффект есть, что он "интересный" - увеличивайте n до величин вам доступных
в принципе эксперимент это модель - по определению результат эксперимента экстраполируется в психологических экспериментах (да и в любых других) или на всю популяцию или на ее часть по договоренности то есть идеальным экспериментом будет тот где n равно численности популяции (или ее части на которую вы собираетесь экстраполировать результаты эксперимента) если в идеальном эксперименте у вас так гуляет р - то эффекта нет если на n=32 у вас гуляет а вы думаете что вы найдет n при котором не будет гулять - увеличивайте n в таком случае - опять же - при n=32 вы признаете что эксперимент тухлый и надо делать новый с большим n
Мне кажется, у нас какое-то недопонимание. В ролике эффект ЕСТЬ. Конечно, он не очень большой по сравнению с шириной распределения внутри каждой группы, но он есть, и не такой уж и маленький. В жизни распределения очень часто очень широкие: например, если вы изучаете влияние чего-нибудь на IQ, или на рост, или на что угодно другое, то придется иметь дело с тем, что распределение IQ или роста будет очень широкое в обеих группах. Но вопрос в том, есть ли разница между средними значениями.
Так что ролик демонстрирует простую ситуацию: "гипотеза" не просто хорошая, он истинная! Нулевая гипотеза неверна. И при этом распределение p-values (неожиданно?) получается очень широкое. Конечно, если увеличить количество людей в каждой группе, то р будут уменьшаться.
sorry for eng i thing we r talking about the same from dif angles though my point: u cannot reliably judge your hypothesis true or false if ur p value is dancing by convention
increase ur n, get ur p down, and then place ur judgment
also, as i agreed above, the experiment is better to be not only by p, but again, it is by convention.
if i were a peer and u come to me for a review with the best hypothesis possible and dancing p - i would say the same - increase ur n, make it cleaner.
Речь идет о ситуации, когда поставлен один эксперимент и получено одно конкретное значение р. Никакия пляшущие р в такой ситуации невозможны, есть только одно значение. А если кто-то поставил 15 одинаковых экспериментов и получились пляшущие р, то все эти 15 экспериментов надо объединить в один тест, и получится в 15 раз больше данных и снова одно р.
Ну, если эксперименты совершенно одинаковые (15 раз набрали по две группы из 10 человек и сравнили между собой), то Бонферрони не нужен: можно ведь просто объединить данные (получится две группы по 150 человек) и сделать один тест. А если эксперименты немного разные (проверяли действие 15 разных процедур), то тогда нужно, конечно, вспомнить о Бонферрони и уменьшить границы р в 15 раз.
Поддерживаю. Речь в данном ролике не столько о неадекватности p, сколько о неадекватности выборок, которыми ограничиываются большинство психологов, по сравнению с масштабом эффектов, которые они изучают.
Я биолог (нейрофизиолог), и у нас например неофициально считается, что эффект меньше 20% - не эффект. Это из немного другой оперы, но логика схожа. N может быть большим, P может быть маленьким, но если сама величина эффекта меньше какого-то интуитивного значения - то эффекта нет, потому что наши системы слишком сложны, и мы просто не в состоянии их полностью контролировать. Это здравый смысл такой. Чтобы утверждать, что эффект есть, он должен прорываться "сквозь" наши нелепые эксперименты, как трава сквозь асфальт. А иначе - это подтасовка данных, потому что "чистых экспериментов" в нашей области не бывает.
Вот и тут похоже. Не в том проблема, что P плохи, а в том, что эксперимент дурацкий.
примерно так то есть гуляем так - смотрим на выборку и predict p или имеем p и представляем себе выборку
при достаточно больших выборках это упражнение теряет практический смысл и доверие к р возрастает
то есть ограничивать посыл автора ролика к утрверждению что "если видим хороший р в статье то это может ни о чем не говорить, точнее это может говорить что этот р или отражает реальность в эксперименте, или что выборка недостаточна и р случайно такой выпал, и тогда нужно смотреть на другие параметры эксперимента" тут я с ним могу согласится - р by itself недостаточен для того чтобы судить об эксперименте
и тут дело доверия думаю раньше convention была что если иссдедователи получили хороший эксперимент с "разницей" ну как не посмотри то чтобы не рапортовать все параметры рапортовали только р потому честность стерлась и р стало единственным за чем стали гоняться что естественно неверно
или давайте сделаем проще от противного возьмем простой известный эксперимент с известным результатом и с маленькими хвостами и я попрошу вас продемонстрировать мне как там будет гулять р
no subject
я увидел что люди ставят экспеример и если видят устраивающее их р - тут же публикуют
если они повторяют эксперимент и р уже не то - они это игнорируют
в то же время если у вас хорошая гипотеза то сколько бы не проводили эксперимент - у вас будет хорошее устойчивое р ибо вы установили закономерность
если гипотеза не отражает реальность - так у вас и р будет гулять
гуляющее р лишь говорит что то что вы наэксперементировали у вас получилось by chance only а не в результате закономерности
no subject
no subject
если р гуляет - конвенционально - теория не верна
почему р гуляет - может из-за грязи в эксперименте может из-за чего еще
я посмотрю еще раз как он устанавливает разницу
по памяти - там разница очень маленькая при больших хвостах
имхо - в этом и суть претензий
если есть маленькая разница при больших хвостах то и появление экперимента с хорошим р это дело шанса
гипотеза которая ведет к эксперименту с маленькой разницей при больших хвостах - это грубо говоря плохая гипотеза или грязный эксперимент
альтернатива - эксперимент с большой разницей и маленькими хвостами - и у вас не будет гулять р
кстати величина разницы имеет меньшее значение чем величина хвостов
no subject
no subject
если хвосты приводят в произвольным колебаниям р это как раз и значит что эффекта нет
то есть шума столько что обнаруженный эффект by chance only
то есть на одном эксперименте нашли что эффект есть
стали изучать далее и выяснили что этот эффект обнаружен by chance which means by convention - no effect
если же в вас еще живет вера в то что эффект есть, что он "интересный" - увеличивайте n до величин вам доступных
в принципе эксперимент это модель - по определению
результат эксперимента экстраполируется в психологических экспериментах (да и в любых других) или на всю популяцию или на ее часть по договоренности
то есть идеальным экспериментом будет тот где n равно численности популяции (или ее части на которую вы собираетесь экстраполировать результаты эксперимента)
если в идеальном эксперименте у вас так гуляет р - то эффекта нет
если на n=32 у вас гуляет а вы думаете что вы найдет n при котором не будет гулять - увеличивайте n
в таком случае - опять же - при n=32 вы признаете что эксперимент тухлый и надо делать новый с большим n
no subject
Так что ролик демонстрирует простую ситуацию: "гипотеза" не просто хорошая, он истинная! Нулевая гипотеза неверна. И при этом распределение p-values (неожиданно?) получается очень широкое. Конечно, если увеличить количество людей в каждой группе, то р будут уменьшаться.
no subject
(Anonymous) 2011-11-23 11:42 pm (UTC)(link)i thing we r talking about the same
from dif angles though
my point: u cannot reliably judge your hypothesis true or false if ur p value is dancing by convention
increase ur n, get ur p down, and then place ur judgment
also, as i agreed above, the experiment is better to be not only by p, but again, it is by convention.
if i were a peer and u come to me for a review with the best hypothesis possible and dancing p - i would say the same - increase ur n, make it cleaner.
no subject
no subject
no subject
no subject
no subject
Я биолог (нейрофизиолог), и у нас например неофициально считается, что эффект меньше 20% - не эффект. Это из немного другой оперы, но логика схожа. N может быть большим, P может быть маленьким, но если сама величина эффекта меньше какого-то интуитивного значения - то эффекта нет, потому что наши системы слишком сложны, и мы просто не в состоянии их полностью контролировать. Это здравый смысл такой. Чтобы утверждать, что эффект есть, он должен прорываться "сквозь" наши нелепые эксперименты, как трава сквозь асфальт. А иначе - это подтасовка данных, потому что "чистых экспериментов" в нашей области не бывает.
Вот и тут похоже. Не в том проблема, что P плохи, а в том, что эксперимент дурацкий.
no subject
то есть гуляем так - смотрим на выборку и predict p или имеем p и представляем себе выборку
при достаточно больших выборках это упражнение теряет практический смысл и доверие к р возрастает
то есть ограничивать посыл автора ролика к утрверждению что
"если видим хороший р в статье то это может ни о чем не говорить, точнее это может говорить что этот р или отражает реальность в эксперименте, или что выборка недостаточна и р случайно такой выпал, и тогда нужно смотреть на другие параметры эксперимента" тут я с ним могу согласится - р by itself недостаточен для того чтобы судить об эксперименте
и тут дело доверия
думаю раньше convention была что если иссдедователи получили хороший эксперимент с "разницей" ну как не посмотри то чтобы не рапортовать все параметры рапортовали только р
потому честность стерлась и р стало единственным за чем стали гоняться что естественно неверно
no subject
no subject
от противного
возьмем простой известный эксперимент с известным результатом и с маленькими хвостами
и я попрошу вас продемонстрировать мне как там будет гулять р