shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-11-22 03:23 pm

Танец p values

В комментах к баейсосрачу в предыдущем посте [livejournal.com profile] kobak дал ссылку на прекрасное видео. Если вдруг кто пропустил:

[identity profile] kobak.livejournal.com 2011-11-22 11:32 pm (UTC)(link)
Честно говоря, когда я увидел этот ролик в первый раз, то сначала не поверил. Но проверил -- всё действительно именно так. Если взять параметры распределений и количество наблюдений, как в ролике, то в 50% экспериментов разница будет значимой (p<0.05), а в 50% -- нет. Результат почти не зависит от статистического теста: я попробовал ttest, ranksum and bootstrap.

Думаю, основной практический вывод такой: p<0.05 -- это смехотворно высокая граница (для одного-единственного набора данных). Чтобы доверять результату, нужно либо получить p типа 10^-10, либо провести несколько независимых экспериментов и т.п. Всё это, в общем, и так понятно, но после этого ролика становится совсем уж очевидно: если некий результат держится на одном сравнении c p около 0.05 (или пусть даже 0.001), то доверять ему нельзя.

[identity profile] kobak.livejournal.com 2011-11-23 10:20 am (UTC)(link)
Виноват, я какую-то глупость написал (т.е. не совсем глупость, но к ролику это не относится). В ролике ведь эффект на самом деле есть. Но половина экспериментов его не обнаруживают (а те, которые обнаруживают, получают самые разнообразные p-values); тем хуже для этих экспериментов. А если эффекта на самом деле нет, то тут всё просто: p<0.05 получится в 5% экспериментов -- что все и так знают. Так что мораль этого ролика в том, что не следует слишком легко доверять ОТРИЦАТЕЛЬНЫМ результатам.

Так?

[identity profile] shvarz.livejournal.com 2011-11-23 01:11 pm (UTC)(link)
Мораль - что не следует чрезмерно полагаться на p value, надо смотреть на эксперимент в целом. Величина эффекта и доверительные интервалы - лучшая мера, чем p value (хотя вот анонимный математик выше уверяет, что это не так).

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 05:10 pm (UTC)(link)
http://shvarz.livejournal.com/299941.html?thread=5431461#t5431461

А анонимного математика Вы боюсь неправильно поняли. Он говорит, что автор ролика некорректо рассказывает про недостатки использования p-value потому, что не понимает сам что это такое. Я думаю, что в этом анонимный математик немного неправ и создатель ролика сознательно мухлюет, что бы сделать эти недостатки более выпуклыми, зримыми, яркими, достучаться до общественного мнения. Но это, конечно, субьективные мнения которые вряд ли могут быть подтверждены.


[identity profile] shvarz.livejournal.com 2011-11-23 05:12 pm (UTC)(link)
Ну, между ними двумя (автором и анонимом) я влезать не буду, квалификации не хватает.

[identity profile] kobak.livejournal.com 2011-11-23 06:36 pm (UTC)(link)
Погодите -- в каком смысле "мухлюет" (создатель ролика)?

В прямом смысле.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 08:20 pm (UTC)(link)
Например очень своеобразной табуляцией данных в левом нижнем окне своей программы. Как хорошо видно на 4:20 колонки подписаны традиционными звездочнками. Но звездочками обозначают не интервал от и до, а меньше чем. И автор сам ровно также делает в районе 1:30-1:40 своего ролика. Тогда корректно он должен либо добавлять каждый случай ко всем тем граничным условиям, к которым он подходит(<.01 заодно и меньше чем .05, например), либо не маскировать свою дурацкую четырехстолбовую гистограмму под стандартные уровни значимости.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 08:43 pm (UTC)(link)
четырех читать пяти. прошу прощения, писал текст не глядя на картинку

[identity profile] kobak.livejournal.com 2011-11-23 10:32 pm (UTC)(link)
Да, согласен, это не очень аккуратно, но при этом из ролика вполне понятно, что именно автор делает, так что не назвал бы это мухляжом. Так или иначе, ролик вполне поучительный: о том, каково будет распределение p-values в ситуации реального, но слабого эффекта и недостаточной мощности эксперимента, как-то редко задумываются. То, что распределение оказывается такое широкое -- факт неожиданный (для меня был неожиданный, по крайней мере).

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 10:43 pm (UTC)(link)
Не согласен. Такого нельзя сделать случайно, поэтому подобное распределение подписей под столбцами именно мухлеж. Неаккуратность -- это кофе на клавиатуру пролить

И это не единственная претензия к ролику, я назвал то, что описать проще. Да и то, вот видите, не очень аккуратно назвал пять четырмя.

[identity profile] signamax.livejournal.com 2011-11-23 10:44 pm (UTC)(link)
с этим я согласен
надо смотреть на эксперимент в целом
все остальное - конвенции для простоты

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 04:38 pm (UTC)(link)
значит правильно я вчера удержался от комментариев