Честно говоря, когда я увидел этот ролик в первый раз, то сначала не поверил. Но проверил -- всё действительно именно так. Если взять параметры распределений и количество наблюдений, как в ролике, то в 50% экспериментов разница будет значимой (p<0.05), а в 50% -- нет. Результат почти не зависит от статистического теста: я попробовал ttest, ranksum and bootstrap.
Думаю, основной практический вывод такой: p<0.05 -- это смехотворно высокая граница (для одного-единственного набора данных). Чтобы доверять результату, нужно либо получить p типа 10^-10, либо провести несколько независимых экспериментов и т.п. Всё это, в общем, и так понятно, но после этого ролика становится совсем уж очевидно: если некий результат держится на одном сравнении c p около 0.05 (или пусть даже 0.001), то доверять ему нельзя.
Виноват, я какую-то глупость написал (т.е. не совсем глупость, но к ролику это не относится). В ролике ведь эффект на самом деле есть. Но половина экспериментов его не обнаруживают (а те, которые обнаруживают, получают самые разнообразные p-values); тем хуже для этих экспериментов. А если эффекта на самом деле нет, то тут всё просто: p<0.05 получится в 5% экспериментов -- что все и так знают. Так что мораль этого ролика в том, что не следует слишком легко доверять ОТРИЦАТЕЛЬНЫМ результатам.
Мораль - что не следует чрезмерно полагаться на p value, надо смотреть на эксперимент в целом. Величина эффекта и доверительные интервалы - лучшая мера, чем p value (хотя вот анонимный математик выше уверяет, что это не так).
А анонимного математика Вы боюсь неправильно поняли. Он говорит, что автор ролика некорректо рассказывает про недостатки использования p-value потому, что не понимает сам что это такое. Я думаю, что в этом анонимный математик немного неправ и создатель ролика сознательно мухлюет, что бы сделать эти недостатки более выпуклыми, зримыми, яркими, достучаться до общественного мнения. Но это, конечно, субьективные мнения которые вряд ли могут быть подтверждены.
Например очень своеобразной табуляцией данных в левом нижнем окне своей программы. Как хорошо видно на 4:20 колонки подписаны традиционными звездочнками. Но звездочками обозначают не интервал от и до, а меньше чем. И автор сам ровно также делает в районе 1:30-1:40 своего ролика. Тогда корректно он должен либо добавлять каждый случай ко всем тем граничным условиям, к которым он подходит(<.01 заодно и меньше чем .05, например), либо не маскировать свою дурацкую четырехстолбовую гистограмму под стандартные уровни значимости.
Да, согласен, это не очень аккуратно, но при этом из ролика вполне понятно, что именно автор делает, так что не назвал бы это мухляжом. Так или иначе, ролик вполне поучительный: о том, каково будет распределение p-values в ситуации реального, но слабого эффекта и недостаточной мощности эксперимента, как-то редко задумываются. То, что распределение оказывается такое широкое -- факт неожиданный (для меня был неожиданный, по крайней мере).
Не согласен. Такого нельзя сделать случайно, поэтому подобное распределение подписей под столбцами именно мухлеж. Неаккуратность -- это кофе на клавиатуру пролить
И это не единственная претензия к ролику, я назвал то, что описать проще. Да и то, вот видите, не очень аккуратно назвал пять четырмя.
no subject
Думаю, основной практический вывод такой: p<0.05 -- это смехотворно высокая граница (для одного-единственного набора данных). Чтобы доверять результату, нужно либо получить p типа 10^-10, либо провести несколько независимых экспериментов и т.п. Всё это, в общем, и так понятно, но после этого ролика становится совсем уж очевидно: если некий результат держится на одном сравнении c p около 0.05 (или пусть даже 0.001), то доверять ему нельзя.
no subject
Так?
no subject
no subject
А анонимного математика Вы боюсь неправильно поняли. Он говорит, что автор ролика некорректо рассказывает про недостатки использования p-value потому, что не понимает сам что это такое. Я думаю, что в этом анонимный математик немного неправ и создатель ролика сознательно мухлюет, что бы сделать эти недостатки более выпуклыми, зримыми, яркими, достучаться до общественного мнения. Но это, конечно, субьективные мнения которые вряд ли могут быть подтверждены.
no subject
no subject
В прямом смысле.
no subject
no subject
no subject
И это не единственная претензия к ролику, я назвал то, что описать проще. Да и то, вот видите, не очень аккуратно назвал пять четырмя.
no subject
надо смотреть на эксперимент в целом
все остальное - конвенции для простоты
no subject