Честно говоря, когда я увидел этот ролик в первый раз, то сначала не поверил. Но проверил -- всё действительно именно так. Если взять параметры распределений и количество наблюдений, как в ролике, то в 50% экспериментов разница будет значимой (p<0.05), а в 50% -- нет. Результат почти не зависит от статистического теста: я попробовал ttest, ranksum and bootstrap.
Думаю, основной практический вывод такой: p<0.05 -- это смехотворно высокая граница (для одного-единственного набора данных). Чтобы доверять результату, нужно либо получить p типа 10^-10, либо провести несколько независимых экспериментов и т.п. Всё это, в общем, и так понятно, но после этого ролика становится совсем уж очевидно: если некий результат держится на одном сравнении c p около 0.05 (или пусть даже 0.001), то доверять ему нельзя.
no subject
Думаю, основной практический вывод такой: p<0.05 -- это смехотворно высокая граница (для одного-единственного набора данных). Чтобы доверять результату, нужно либо получить p типа 10^-10, либо провести несколько независимых экспериментов и т.п. Всё это, в общем, и так понятно, но после этого ролика становится совсем уж очевидно: если некий результат держится на одном сравнении c p около 0.05 (или пусть даже 0.001), то доверять ему нельзя.