shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-11-22 03:23 pm

Танец p values

В комментах к баейсосрачу в предыдущем посте [livejournal.com profile] kobak дал ссылку на прекрасное видео. Если вдруг кто пропустил:

[identity profile] kobak.livejournal.com 2011-11-23 10:20 am (UTC)(link)
Виноват, я какую-то глупость написал (т.е. не совсем глупость, но к ролику это не относится). В ролике ведь эффект на самом деле есть. Но половина экспериментов его не обнаруживают (а те, которые обнаруживают, получают самые разнообразные p-values); тем хуже для этих экспериментов. А если эффекта на самом деле нет, то тут всё просто: p<0.05 получится в 5% экспериментов -- что все и так знают. Так что мораль этого ролика в том, что не следует слишком легко доверять ОТРИЦАТЕЛЬНЫМ результатам.

Так?

[identity profile] shvarz.livejournal.com 2011-11-23 01:11 pm (UTC)(link)
Мораль - что не следует чрезмерно полагаться на p value, надо смотреть на эксперимент в целом. Величина эффекта и доверительные интервалы - лучшая мера, чем p value (хотя вот анонимный математик выше уверяет, что это не так).

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 05:10 pm (UTC)(link)
http://shvarz.livejournal.com/299941.html?thread=5431461#t5431461

А анонимного математика Вы боюсь неправильно поняли. Он говорит, что автор ролика некорректо рассказывает про недостатки использования p-value потому, что не понимает сам что это такое. Я думаю, что в этом анонимный математик немного неправ и создатель ролика сознательно мухлюет, что бы сделать эти недостатки более выпуклыми, зримыми, яркими, достучаться до общественного мнения. Но это, конечно, субьективные мнения которые вряд ли могут быть подтверждены.


[identity profile] shvarz.livejournal.com 2011-11-23 05:12 pm (UTC)(link)
Ну, между ними двумя (автором и анонимом) я влезать не буду, квалификации не хватает.

[identity profile] kobak.livejournal.com 2011-11-23 06:36 pm (UTC)(link)
Погодите -- в каком смысле "мухлюет" (создатель ролика)?

В прямом смысле.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 08:20 pm (UTC)(link)
Например очень своеобразной табуляцией данных в левом нижнем окне своей программы. Как хорошо видно на 4:20 колонки подписаны традиционными звездочнками. Но звездочками обозначают не интервал от и до, а меньше чем. И автор сам ровно также делает в районе 1:30-1:40 своего ролика. Тогда корректно он должен либо добавлять каждый случай ко всем тем граничным условиям, к которым он подходит(<.01 заодно и меньше чем .05, например), либо не маскировать свою дурацкую четырехстолбовую гистограмму под стандартные уровни значимости.

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 08:43 pm (UTC)(link)
четырех читать пяти. прошу прощения, писал текст не глядя на картинку

[identity profile] kobak.livejournal.com 2011-11-23 10:32 pm (UTC)(link)
Да, согласен, это не очень аккуратно, но при этом из ролика вполне понятно, что именно автор делает, так что не назвал бы это мухляжом. Так или иначе, ролик вполне поучительный: о том, каково будет распределение p-values в ситуации реального, но слабого эффекта и недостаточной мощности эксперимента, как-то редко задумываются. То, что распределение оказывается такое широкое -- факт неожиданный (для меня был неожиданный, по крайней мере).

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 10:43 pm (UTC)(link)
Не согласен. Такого нельзя сделать случайно, поэтому подобное распределение подписей под столбцами именно мухлеж. Неаккуратность -- это кофе на клавиатуру пролить

И это не единственная претензия к ролику, я назвал то, что описать проще. Да и то, вот видите, не очень аккуратно назвал пять четырмя.

[identity profile] signamax.livejournal.com 2011-11-23 10:44 pm (UTC)(link)
с этим я согласен
надо смотреть на эксперимент в целом
все остальное - конвенции для простоты

[identity profile] vasja-iz-aa.livejournal.com 2011-11-23 04:38 pm (UTC)(link)
значит правильно я вчера удержался от комментариев