shvarz: (Default)
[personal profile] shvarz
1. Если нулевая гипотеза верна, то очень маловероятно получить в эксперименте результат Х.
2. Мы сделали эксперимент и получили результат Х.
3. Следовательно, нулевая гипотеза скорее всего неверна.

Эта интерпретация p value встречается в науке сплошь и рядом, и даже в некоторых учебниках по статистике приводится. Что статистиков чрезвычайно выводит из себя, но я не встречал еще статистика, который мог бы на пальцах объяснить, что почему это не верно.

А вы видите тут логическую неувязку?

Если нет, то следующая аналогия (вычитанная мною в одной статье) вам должна помочь:

1. Если человек американец, то очень маловероятно что он сенатор.
2. Вот перед нами сенатор.
3. Следовательно, он скорее всего не американец.

Впрочем, даже здесь, хотя абсурдность вывода и очевидна, откуда именно она берется - не совсем очевидно и приходится подумать.
Page 5 of 6 << [1] [2] [3] [4] [5] [6] >>

Date: 2011-11-21 09:41 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Внутренняя стурктура (логические заключения на основании каких-то предпосылок и данных) в обоих случаях одинакова. Если очень хочется, то можно наверно сформулировать нулевую гипотезу как "рассматриваемое нами общество - американское".

Date: 2011-11-21 09:42 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я о вероятности того, что случайно-взятый человек будет сенатором.

Date: 2011-11-21 09:43 pm (UTC)
From: [identity profile] rsokolov.livejournal.com
То есть, вы поймали сенатора и показываете его нам. Сенатор, по вашему определению, - член сената США, т.е. гражданин США, т.е. американец.

Следовательно, этот человек будет американцем по определению, неважно даже какое там было распределение вероятностей.

Аналогично, если вы получаете результат X, и этот результат может быть получен только при нулевой гипотезе, то тем самым вы автоматически доказываете верность нулевой гипотезы. Но такого, чтобы результат мог быть получен только при нулевой гипотезе, в реальности не бывает.

Date: 2011-11-21 09:47 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Нет, я поймал человека и говорю - "если он американец, то он скорее всего не сенатор (своей страны), т.е. не сенатор США". Потому что я знаю, что в Штатах очень мало сенаторов на душу населения.
Аналогично, я получил результат и говорю - "если нулевая гипотеза верна, то такой результат очень маловероятен".

Date: 2011-11-21 09:47 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
а-а, Вы про Байеса...

Date: 2011-11-21 09:48 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я уже и сам запутался о Байесе или нет. А казалось вначале, что такая красивая и понятная аналогия :)

Date: 2011-11-21 09:49 pm (UTC)
From: [identity profile] shvarz.livejournal.com
В частотной статистике у гипотезы нет вероятности быть верной или не верной. Она либо верна, либо нет.

Date: 2011-11-21 09:51 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Да нет, почему же? Мы начинаем с наугад-взятого человека, и спрашиваем, какова вероятность что он сенатор. Если он американец, то эта вероятность мала. Оказывается, что он действительно сенатор. Значит, заключаем мы, маловероятно, что он американец.

Date: 2011-11-21 09:52 pm (UTC)
From: [identity profile] rsokolov.livejournal.com
Это вы могли говорить еще и до того, как его поймали. А теперь вы его поймали и говорите: "2. Вот перед нами сенатор.".

Ну да, маловероятно, что он оказался бы сенатором. Но раз уж оказался - то иначе чем американцем он и быть не может.

Маловероятно, что при нулевой гипотезе будет результат X. Но раз уж результат - X, то нулевая гипотеза верна, поскольку иначе и быть не может.
From: [identity profile] shvarz.livejournal.com
С толку действительно сбивает :)
Но вроде разобрались...

Date: 2011-11-21 09:57 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Что-то я совсем в ваших рассуждениях запутался. Почему если результат X, то нулевая гипотеза верна?

Давайте еще раз: Мы в какой-то неизвестной стране, нулевая гипотеза - что в Штатах. 1. Давайте спросим прохожего, кем он работает, мы знаем что в Штатах практически все ковбои и совсем немного сенаторов, значит случайный прохожий в Штатах должен оказаться ковбоем. 2. Останавливаем, спрашиваем - сенатор! 3. Значит, скорее всего мы не в Штатах.

Видите ошибку в логике?

Date: 2011-11-21 10:00 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Именно так он и должен звучать. Извиняюсь, что неясно было.

Date: 2011-11-21 10:01 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Если уж на то пошло, то в биологии нужно постараться, чтобы найти такую нулевую гипотезу, которая была бы верна :)

Date: 2011-11-21 10:02 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Так и p value не виновато. В своем нормальном смысле - вещь вполне правильная и полезная :)

Date: 2011-11-21 10:04 pm (UTC)
From: [identity profile] rsokolov.livejournal.com
>>Почему если результат X, то нулевая гипотеза верна?

По аналогии. Если человек - сенатор, то он - американец.

>>Видите ошибку в логике?

Естественно, вижу. Я просто сомневаюсь в ценности этого примера. Только американец может быть сенатором. но результат X может быть получен не только при нулевой гипотезе.

Date: 2011-11-22 02:53 am (UTC)
From: [identity profile] shvarz.livejournal.com
Нет, не только американец может быть сенатором. Мы о его нацпринадлежности судить не можем, в этом собственно и заключается логическая ошибка в построении.

Date: 2011-11-22 03:09 am (UTC)
From: (Anonymous)
Ладно, короткими комментами у меня не получилось, придется длинно и занудно, в трех частях.

Первый список из трех пунктов в посте правильно описывает, как надо применять p-values (по модулю правильного понимания слов: "скорее всего" надо понимать не в теоретико-вероятностном смысле, а в бытовом или "юридическом", но тут у нас расхождений, кажется, нет).

Абсурдный вывод получается во вторых трех пунктах (в пародии) из-за неаккуратного обращения с "нулевой гипотезой": а именно, в первом пункте выдвигается одна статистическая гипотеза, но в третьем пункте отвергается совсем другая гипотеза; подмена маскируется тем, что обе гипотезы приблизительно одинаково звучат в неформальном изложении.

Чтобы объяснить суть подмены, нужно разобраться в том, что такое статистическая гипотеза (прилагательное "статистическая" я впредь буду опускать). "Выбранный человек является американцем" - не гипотеза, вообще говоря, но это можно интерпретировать как гипотезу, выраженную на некотором жаргоне.

Я начну несколько издалека. Теория вероятностей (я для простоты буду придерживаться классического подхода) предполагает, что есть некоторое вероятностное пространство (грубо говоря, набор элементарных исходов и распределение на нем), мы знаем какие-то из свойств этого пространства (иными словами, нам задан класс пространств, содержащий "настоящее" пространство), и мы хотим что-то вывести о свойствах некоторых интересующих нас событий (грубо говоря, события - это те группы исходов, которые мы можем наблюдать, то есть отличать друг от друга). Подход статистики в каком-то смысле противоположен. Никаких вероятностей изначально нет (опять-таки, я для простоты придерживаюсь классического частотного подхода; дальнейшее философски плохо совместимо или совсем не совместимо со многими другими подходами к основаниям, в частности, со многими байесовскими; однако это дальнейшее остается операционально верным во всех известных мне развитых системах). У нас есть какие-то наблюдения; мы хотели бы предположить, что существует вероятностное пространство, в котором мы можем подобрать события, соответствующие нашим наблюдениям; и мы хотим утверждать что-нибудь о свойствах этого пространства. То есть мы хотим по наблюдениям найти класс вероятностных пространств, совместимый с этими наблюдениями. Вот этот класс и называется "истинной" гипотезой. А просто гипотезой называется любой класс пространств. Проверка же на совместимость гипотезы и наблюдений может называться тестированием (в частотном подходе, где мы пытаемся просто сказать да или нет), либо Bayesian inference (где мы пытаемся ввести более тонкую структуру на гипотезах), либо калибровка, валидация и прочее (это в более экзотических подходах).

Практический вывод из всего этого математического абстракционизма такой: гипотеза - это какие-то предположения о вероятностях, с которыми мы видим то, что видим. Пусть мы увидели x. Тогда "x - американец" гипотезой не будет. "x взято из множества A, состоящего только из американцев" - уже лучше, но гипотезой тоже не является. А гипотезами будут, например "x выбрано из равномерного распределения на множестве A", "x выбрано из какого-то распределения на множестве A", "x выбрано из какого-то распределения на каком-то конечном подмножестве A множества всех американцев". Оговорюсь, что гипотезы такой общности в курсах статистики обычно не рассматривают. А рассматривают, скажем, параметрические семейства - заданные, грубо говоря, формулой с конечным числом вещественных параметров; либо непараметрические семейства - заданные бесконечным числом параметров или же, скажем, измеримым (в смысле теории меры) свойством функции распределения. Но общие гипотезы не рассматривают только потому, что там особо содержательной науки нет. Логически же основания у нас устроены именно так.

[Продолжение следует!]

Date: 2011-11-22 03:10 am (UTC)
From: (Anonymous)
[Продолжение]

После того, как гипотеза выбрана, надо выбрать, как ее тестировать. Для этого надо выбрать какие-то события, посмотреть, произошли ли они (то есть сравнить их с наблюдениями), посчитать их вероятности при каждом из распределений нашей гипотезы, и если оказалось, что произошло маловероятное событие - отвергнуть гипотезу по принципу Курно. Лирическое отступление. Как выбирать события - это сложная и очень плохо разработанная тема; в основном, у нас есть разные практически проверенные рецепты (например, дать выбрать события опытному статистику, но до того, как ему показали наблюдения). Идеология p-values предлагает такой способ выбора событий: надо взять какую-нибудь вещественнозначную статистику f (статистикой здесь называется не наука, а любая детерминированная функция от наблюдений), у которой очень большие (либо очень маленькие) значения мы считаем очевидно невозможными, и рассмотреть событие {f(X) больше f(x_0)}, где x_0 - то, что мы наблюли, а X - случайное наблюдение (в каждом из распределений гипотезы). Конец лирического отступления.

Конечно, в жизни никто гипотезы явно не выписывает, а говорят неформально. Например, "нулевая гипотеза, что X - американец, против альтернативы, что X - марсианин". В зависимости от контекста, это может подразумевать примерно такие гипотезы в качестве нулевой: "X равновероятно извлекается из множества всех американцев", "X равновероятно извлекается из множества, где не менее 80% американцы, а не более 20% - марсиане", "X равновероятно извлекается из множества американцев, в котором все значимые характеристики находятся в тех же пропорциях, что и во множестве всех американцев", и так далее.

Займемся, наконец, интерпретацией условия "Если человек американец, то очень маловероятно что он сенатор. Вот перед нами сенатор (взяли первого попавшегося человека, оказалось — сенатор)". Здесь неформально изложены и гипотеза, и событие, которое должно быть маловероятно при любом из распределений из этой гипотезы, и даже наблюдение. Начало бесспорно: возможные наблюдения у нас - люди; событие, используемое при тестировании - "человек является сенатором". Какие же гипотезы мог иметь в виду тот, кто написал эту фразу? Более-менее, только "человек выбирается равновероятно во множестве всех американцев". (Если Вы можете предложить другую, с удовольствием рассмотрю.) А какие не мог? Например, "человек как-то выбирается из какого-то множества американцев": среди распределений, принадлежащих этой гипотезе, есть и равновероятное на сенате, однако для этого распределения наше событие не маловероятное, а совсем наоборот.

Наше наблюдение отвергает гипотезу - мы же увидели того самого маловероятного сенатора. Важно, что гипотезу мы отвергаем целиком, то есть вывод звучит так: неверно, что человек выбран равновероятно во множестве всех американцев. То есть либо не среди американцев, либо не равновероятно (естественные подозревать, конечно, что именно равновероятность обеспечить не удалось.) Никакого абсурда.

"Следовательно, он скорее всего не американец" может быть неправильным построением отрицания для высказывания "A и B" - вместо верного "не A или не B" мы почему-то сказали "не A". Но может быть и неосознанной подменой гипотезы. Какова же подменная гипотеза? А та самая, некорректная "человек как-то выбирается из какого-то множества американцев". Неудивительно, что неформальный вывод абсурден - мы по дороге сменили тезис.

Осталось понять, почему мы так легко согласились на подмену гипотезы (тривиальную логическую ошибку мы бы легко заметили). А потому, что обе гипотезы имеют совершенно естественный вид и могут неформально выражаться в одинаковых словах. Рассмотрим другое неформальное описание: "Если человек американец, то очень маловероятно, что у него сердце справа, зеленая кровь и голова не винтах". Какая гипотеза тут подразумевается? Вполне возможно, что как раз бывшая "некорректная": "человек как-то выбран из какого-то множества американцев".

[Продолжение следует!]

Date: 2011-11-22 03:11 am (UTC)
From: (Anonymous)
[Окончание]

Чтобы сделать ее менее тривиальной, уточним еще и скажем, что возможные наблюдения у нас - пары "человек и процесс его обследования", а событие - "после обследование оказалось, что у человека зеленая кровь и прочее". Гипотезу уточним: "человек как-то выбран из какого-то множества американцев, и процесс обследования выдает ошибочный результат с малой вероятностью" . В этом случае, если мы обнаружили зеленую кровь, то мы делаем вывод, что либо не американец (в гипотезу на этот раз мы включили все возможные распределения, так что все их и отвергли), либо обследование у нас ошибается не с малой вероятностью. Потом, привлекая другие свидетельства (здравый смысл, в частности: чтобы по ошибке увидеть сердце справа, зеленую кровь и голову на винтах, нужно все же редкостно хорошо покурить), мы вывод можем и уточнить.

Конечно, и с сенатором так же поступить было можно и даже нужно: пары из человека и процесса наведения справок, событие - "при наведении справок человек оказался сенатором", гипотезу меняем соответственно, а вывод - либо не американец, либо не равновероятно, либо справки наводить не умеем. Опять же, здравый смысл подсказывает, что насчет сенаторства в американской действительности ошибиться почти невозможно.

Подчеркну еще раз вот что. Гипотеза - это всегда очень большой набор предположений о вероятностях. Мы можем отвергнуть его только целиком, получится длинный список вида "или не A, или не B, или не C...". Формально говоря, только после этого можно использовать другие свидетельства, чтобы выбрать заведомо верные предположения и сократить список до обозримого "или не G, или не S". Практически же большинство предположений мы даже не формулируем, а многие другие обеспечиваем специально - скажем, правильной подготовкой эксперимента.

В частности, в рассмотренных нами фантастических случаях могло быть какое-то предисловие типа такого. "Мы приехали в неизвестную страну, а может быть, прилетели на Марс. У нас нет оснований предполагать, что место, в котором мы оказались, как-то специально выбрано, поэтому первого встречного мы считаем равновероятно выбранным среди всех жителей страны. Мы спросили, не сенатор ли он, и взяли пробу крови." Да Вы примерно это и написали в комментариях. Будь это предисловие явным, все бы закричали - да как же, сенаторы редки в любой стране, не мог первый встречный сенатором оказаться, эксперимент у вас неправильный, наверное, вы пробирки не помыли. И не начали бы разборки с бедными невинными p-values.

В реальных прикладных статьях и предисловия часто нет, и гипотезу никто формально не выписывает (да даже в нашем модельном случае я формально выписать гипотезу не смог, а ограничился чуть более подробным неформальным описанием). К ошибкам это приводит чудовищным. А потом говорят про ложь, большую ложь и статистику.

Date: 2011-11-22 03:19 am (UTC)
From: [identity profile] rsokolov.livejournal.com
Посмотрите еще раз первый мой комментарий в этой ветке. Там два варианта: либо слово "сенатор" по определению означает член сената США, либо оно может означать сенатора какой угодно страны. Из вашего первого ответа ("Да, имелся в виду член сената США") я подумал, что вы имеете в виду первый вариант. Теперь же вы пишете что не только американец может быть сенатором. (А членом сената США может быть только американец - этот факт, надеюсь, возражений не вызывает.) Следовательно, вы имеете в виду второй вариант. Но произвольно взятый сенатор скорее всего не будет американцем!

Date: 2011-11-22 04:48 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Да, я сначала запутался. Правильный ответ на ваш вопрос - сенатор той страны, где мы нашли нашего случайного человека (если нулевая гипотеза, что это америка - значит американского сената).
Хотя произвольно взятый сенатор скорее всего и не будет американцем (если мы считаем, что действие задачи происходит сегодня, а не двести лет назад), этот результат не является логически-обоснованным выводом из условий задачи.

Date: 2011-11-22 05:04 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Спасибо за такой подробный ответ. Если я вас правильно понял, то вы говорите, что implicitly мы все на самом деле байесовцы, т.е. даже если мы и пользуемся классическим подходом, то на самом деле мы всегда держим в голове множество гипотез, неким образом ранжируем их вероятности и неким образом просчитываем вероятности каждого результата при каждой гипотезе. Поэтому заключение о вероятности нулевой гипотезы на основании классического p value (в первом приближении, на практике) является корректным. Так?

Но при этом вы не оспариваете, что формально оно не корректно? Не знаю, для вас это может слишком очевидно, но для огромного количества людей (включая меня) вот эта формальная некорректность является соверешнно неочевидной, поэтому и пример этот полезен (хотя и менее полезен, чем мне показалось вначале).

Date: 2011-11-22 05:15 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Нет, не видел. Отличное видео! Must see :)

Date: 2011-11-22 05:42 pm (UTC)
From: (Anonymous)
Честно говоря, я очень озадачен Вашим первым абзацем. Мне казалось, ничего такого я не говорил. P-value ничего не говорит о "вероятности нулевой гипотезы". P-value сообщает нам, верна гипотеза или нет, никаких вероятностей, полная определенность.

Возможно, я сказал на этот раз слишком много слов. Повторю чуть короче самое главное. Сначала никаких гипотез нет вообще. Потом мы тяжким трудом придумываем одну гипотезу. Одну. Никаких других. Гипотеза - это то, что позволяет посчитать вероятности всех событий, всех мыслимых. Еще раз: гипотезой называется любой способ приписать каждому событию число - вероятность, причем так, что разным событиям вероятности приписаны согласованным образом (так, чтобы выполнялись законы теории вероятностей). Придумав гипотезу, мы ее проверяем: смотрим, какова вероятность действительно произошедшего события. Если она мала, мы гипотезу отвергаем. Не говорим, что эта гипотеза маловероятна - никаких вероятностей нет. Просто твердо говорим, что гипотеза неверна. Все оговорки, что маловероятные события иногда случаются, мы оставляем там же, где оговорки, что мы могли ошибиться при подсчете, забыть помыть пробирку, страдать галлюцинациями и так далее. Просто "гипотеза неверна", а то, что всё наше знание в принципе подвержено ошибкам, оставили философам. (Здесь я замел под ковер, что надо выбрать рассматриваемое событие и выбрать, что значит "вероятность события мала". Это отдельная тема, не надо ее пока примешивать.)

Пример - чистый софизм, в котором гипотезу по дороге поменяли. Полезен он ровно тем, что так случается и на практике, совершенно бессознательно.

Date: 2011-11-22 06:05 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Хм, это меня смутили ваши рассуждения о том, что все возможные ошибки и условия мы формально оговорить не можем (или не желаем).

Но я все-таки не понимаю. Сначала вы говорите: "Первый список из трех пунктов в посте правильно описывает, как надо применять p-values", а потом "Пример - чистый софизм, в котором гипотезу по дороге поменяли.", хотя в первом примере именно упор на неправильной интерпретации p value делается и подмена гипотез тоже происходит - от верности нулевой гипотезы к ее (не)вероятности.
Page 5 of 6 << [1] [2] [3] [4] [5] [6] >>

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 8th, 2025 07:42 am
Powered by Dreamwidth Studios