Интерпретация p value
Nov. 19th, 2011 09:13 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
1. Если нулевая гипотеза верна, то очень маловероятно получить в эксперименте результат Х.
2. Мы сделали эксперимент и получили результат Х.
3. Следовательно, нулевая гипотеза скорее всего неверна.
Эта интерпретация p value встречается в науке сплошь и рядом, и даже в некоторых учебниках по статистике приводится. Что статистиков чрезвычайно выводит из себя, но я не встречал еще статистика, который мог бы на пальцах объяснить, что почему это не верно.
А вы видите тут логическую неувязку?
Если нет, то следующая аналогия (вычитанная мною в одной статье) вам должна помочь:
1. Если человек американец, то очень маловероятно что он сенатор.
2. Вот перед нами сенатор.
3. Следовательно, он скорее всего не американец.
Впрочем, даже здесь, хотя абсурдность вывода и очевидна, откуда именно она берется - не совсем очевидно и приходится подумать.
2. Мы сделали эксперимент и получили результат Х.
3. Следовательно, нулевая гипотеза скорее всего неверна.
Эта интерпретация p value встречается в науке сплошь и рядом, и даже в некоторых учебниках по статистике приводится. Что статистиков чрезвычайно выводит из себя, но я не встречал еще статистика, который мог бы на пальцах объяснить, что почему это не верно.
А вы видите тут логическую неувязку?
Если нет, то следующая аналогия (вычитанная мною в одной статье) вам должна помочь:
1. Если человек американец, то очень маловероятно что он сенатор.
2. Вот перед нами сенатор.
3. Следовательно, он скорее всего не американец.
Впрочем, даже здесь, хотя абсурдность вывода и очевидна, откуда именно она берется - не совсем очевидно и приходится подумать.
no subject
Date: 2011-11-21 12:11 am (UTC)no subject
Date: 2011-11-21 09:51 pm (UTC)no subject
Date: 2011-11-22 03:09 am (UTC)Первый список из трех пунктов в посте правильно описывает, как надо применять p-values (по модулю правильного понимания слов: "скорее всего" надо понимать не в теоретико-вероятностном смысле, а в бытовом или "юридическом", но тут у нас расхождений, кажется, нет).
Абсурдный вывод получается во вторых трех пунктах (в пародии) из-за неаккуратного обращения с "нулевой гипотезой": а именно, в первом пункте выдвигается одна статистическая гипотеза, но в третьем пункте отвергается совсем другая гипотеза; подмена маскируется тем, что обе гипотезы приблизительно одинаково звучат в неформальном изложении.
Чтобы объяснить суть подмены, нужно разобраться в том, что такое статистическая гипотеза (прилагательное "статистическая" я впредь буду опускать). "Выбранный человек является американцем" - не гипотеза, вообще говоря, но это можно интерпретировать как гипотезу, выраженную на некотором жаргоне.
Я начну несколько издалека. Теория вероятностей (я для простоты буду придерживаться классического подхода) предполагает, что есть некоторое вероятностное пространство (грубо говоря, набор элементарных исходов и распределение на нем), мы знаем какие-то из свойств этого пространства (иными словами, нам задан класс пространств, содержащий "настоящее" пространство), и мы хотим что-то вывести о свойствах некоторых интересующих нас событий (грубо говоря, события - это те группы исходов, которые мы можем наблюдать, то есть отличать друг от друга). Подход статистики в каком-то смысле противоположен. Никаких вероятностей изначально нет (опять-таки, я для простоты придерживаюсь классического частотного подхода; дальнейшее философски плохо совместимо или совсем не совместимо со многими другими подходами к основаниям, в частности, со многими байесовскими; однако это дальнейшее остается операционально верным во всех известных мне развитых системах). У нас есть какие-то наблюдения; мы хотели бы предположить, что существует вероятностное пространство, в котором мы можем подобрать события, соответствующие нашим наблюдениям; и мы хотим утверждать что-нибудь о свойствах этого пространства. То есть мы хотим по наблюдениям найти класс вероятностных пространств, совместимый с этими наблюдениями. Вот этот класс и называется "истинной" гипотезой. А просто гипотезой называется любой класс пространств. Проверка же на совместимость гипотезы и наблюдений может называться тестированием (в частотном подходе, где мы пытаемся просто сказать да или нет), либо Bayesian inference (где мы пытаемся ввести более тонкую структуру на гипотезах), либо калибровка, валидация и прочее (это в более экзотических подходах).
Практический вывод из всего этого математического абстракционизма такой: гипотеза - это какие-то предположения о вероятностях, с которыми мы видим то, что видим. Пусть мы увидели x. Тогда "x - американец" гипотезой не будет. "x взято из множества A, состоящего только из американцев" - уже лучше, но гипотезой тоже не является. А гипотезами будут, например "x выбрано из равномерного распределения на множестве A", "x выбрано из какого-то распределения на множестве A", "x выбрано из какого-то распределения на каком-то конечном подмножестве A множества всех американцев". Оговорюсь, что гипотезы такой общности в курсах статистики обычно не рассматривают. А рассматривают, скажем, параметрические семейства - заданные, грубо говоря, формулой с конечным числом вещественных параметров; либо непараметрические семейства - заданные бесконечным числом параметров или же, скажем, измеримым (в смысле теории меры) свойством функции распределения. Но общие гипотезы не рассматривают только потому, что там особо содержательной науки нет. Логически же основания у нас устроены именно так.
[Продолжение следует!]
no subject
Date: 2011-11-22 03:10 am (UTC)После того, как гипотеза выбрана, надо выбрать, как ее тестировать. Для этого надо выбрать какие-то события, посмотреть, произошли ли они (то есть сравнить их с наблюдениями), посчитать их вероятности при каждом из распределений нашей гипотезы, и если оказалось, что произошло маловероятное событие - отвергнуть гипотезу по принципу Курно. Лирическое отступление. Как выбирать события - это сложная и очень плохо разработанная тема; в основном, у нас есть разные практически проверенные рецепты (например, дать выбрать события опытному статистику, но до того, как ему показали наблюдения). Идеология p-values предлагает такой способ выбора событий: надо взять какую-нибудь вещественнозначную статистику f (статистикой здесь называется не наука, а любая детерминированная функция от наблюдений), у которой очень большие (либо очень маленькие) значения мы считаем очевидно невозможными, и рассмотреть событие {f(X) больше f(x_0)}, где x_0 - то, что мы наблюли, а X - случайное наблюдение (в каждом из распределений гипотезы). Конец лирического отступления.
Конечно, в жизни никто гипотезы явно не выписывает, а говорят неформально. Например, "нулевая гипотеза, что X - американец, против альтернативы, что X - марсианин". В зависимости от контекста, это может подразумевать примерно такие гипотезы в качестве нулевой: "X равновероятно извлекается из множества всех американцев", "X равновероятно извлекается из множества, где не менее 80% американцы, а не более 20% - марсиане", "X равновероятно извлекается из множества американцев, в котором все значимые характеристики находятся в тех же пропорциях, что и во множестве всех американцев", и так далее.
Займемся, наконец, интерпретацией условия "Если человек американец, то очень маловероятно что он сенатор. Вот перед нами сенатор (взяли первого попавшегося человека, оказалось — сенатор)". Здесь неформально изложены и гипотеза, и событие, которое должно быть маловероятно при любом из распределений из этой гипотезы, и даже наблюдение. Начало бесспорно: возможные наблюдения у нас - люди; событие, используемое при тестировании - "человек является сенатором". Какие же гипотезы мог иметь в виду тот, кто написал эту фразу? Более-менее, только "человек выбирается равновероятно во множестве всех американцев". (Если Вы можете предложить другую, с удовольствием рассмотрю.) А какие не мог? Например, "человек как-то выбирается из какого-то множества американцев": среди распределений, принадлежащих этой гипотезе, есть и равновероятное на сенате, однако для этого распределения наше событие не маловероятное, а совсем наоборот.
Наше наблюдение отвергает гипотезу - мы же увидели того самого маловероятного сенатора. Важно, что гипотезу мы отвергаем целиком, то есть вывод звучит так: неверно, что человек выбран равновероятно во множестве всех американцев. То есть либо не среди американцев, либо не равновероятно (естественные подозревать, конечно, что именно равновероятность обеспечить не удалось.) Никакого абсурда.
"Следовательно, он скорее всего не американец" может быть неправильным построением отрицания для высказывания "A и B" - вместо верного "не A или не B" мы почему-то сказали "не A". Но может быть и неосознанной подменой гипотезы. Какова же подменная гипотеза? А та самая, некорректная "человек как-то выбирается из какого-то множества американцев". Неудивительно, что неформальный вывод абсурден - мы по дороге сменили тезис.
Осталось понять, почему мы так легко согласились на подмену гипотезы (тривиальную логическую ошибку мы бы легко заметили). А потому, что обе гипотезы имеют совершенно естественный вид и могут неформально выражаться в одинаковых словах. Рассмотрим другое неформальное описание: "Если человек американец, то очень маловероятно, что у него сердце справа, зеленая кровь и голова не винтах". Какая гипотеза тут подразумевается? Вполне возможно, что как раз бывшая "некорректная": "человек как-то выбран из какого-то множества американцев".
[Продолжение следует!]
no subject
Date: 2011-11-22 03:11 am (UTC)Чтобы сделать ее менее тривиальной, уточним еще и скажем, что возможные наблюдения у нас - пары "человек и процесс его обследования", а событие - "после обследование оказалось, что у человека зеленая кровь и прочее". Гипотезу уточним: "человек как-то выбран из какого-то множества американцев, и процесс обследования выдает ошибочный результат с малой вероятностью" . В этом случае, если мы обнаружили зеленую кровь, то мы делаем вывод, что либо не американец (в гипотезу на этот раз мы включили все возможные распределения, так что все их и отвергли), либо обследование у нас ошибается не с малой вероятностью. Потом, привлекая другие свидетельства (здравый смысл, в частности: чтобы по ошибке увидеть сердце справа, зеленую кровь и голову на винтах, нужно все же редкостно хорошо покурить), мы вывод можем и уточнить.
Конечно, и с сенатором так же поступить было можно и даже нужно: пары из человека и процесса наведения справок, событие - "при наведении справок человек оказался сенатором", гипотезу меняем соответственно, а вывод - либо не американец, либо не равновероятно, либо справки наводить не умеем. Опять же, здравый смысл подсказывает, что насчет сенаторства в американской действительности ошибиться почти невозможно.
Подчеркну еще раз вот что. Гипотеза - это всегда очень большой набор предположений о вероятностях. Мы можем отвергнуть его только целиком, получится длинный список вида "или не A, или не B, или не C...". Формально говоря, только после этого можно использовать другие свидетельства, чтобы выбрать заведомо верные предположения и сократить список до обозримого "или не G, или не S". Практически же большинство предположений мы даже не формулируем, а многие другие обеспечиваем специально - скажем, правильной подготовкой эксперимента.
В частности, в рассмотренных нами фантастических случаях могло быть какое-то предисловие типа такого. "Мы приехали в неизвестную страну, а может быть, прилетели на Марс. У нас нет оснований предполагать, что место, в котором мы оказались, как-то специально выбрано, поэтому первого встречного мы считаем равновероятно выбранным среди всех жителей страны. Мы спросили, не сенатор ли он, и взяли пробу крови." Да Вы примерно это и написали в комментариях. Будь это предисловие явным, все бы закричали - да как же, сенаторы редки в любой стране, не мог первый встречный сенатором оказаться, эксперимент у вас неправильный, наверное, вы пробирки не помыли. И не начали бы разборки с бедными невинными p-values.
В реальных прикладных статьях и предисловия часто нет, и гипотезу никто формально не выписывает (да даже в нашем модельном случае я формально выписать гипотезу не смог, а ограничился чуть более подробным неформальным описанием). К ошибкам это приводит чудовищным. А потом говорят про ложь, большую ложь и статистику.
no subject
Date: 2011-11-22 05:04 pm (UTC)Но при этом вы не оспариваете, что формально оно не корректно? Не знаю, для вас это может слишком очевидно, но для огромного количества людей (включая меня) вот эта формальная некорректность является соверешнно неочевидной, поэтому и пример этот полезен (хотя и менее полезен, чем мне показалось вначале).
no subject
Date: 2011-11-22 05:42 pm (UTC)Возможно, я сказал на этот раз слишком много слов. Повторю чуть короче самое главное. Сначала никаких гипотез нет вообще. Потом мы тяжким трудом придумываем одну гипотезу. Одну. Никаких других. Гипотеза - это то, что позволяет посчитать вероятности всех событий, всех мыслимых. Еще раз: гипотезой называется любой способ приписать каждому событию число - вероятность, причем так, что разным событиям вероятности приписаны согласованным образом (так, чтобы выполнялись законы теории вероятностей). Придумав гипотезу, мы ее проверяем: смотрим, какова вероятность действительно произошедшего события. Если она мала, мы гипотезу отвергаем. Не говорим, что эта гипотеза маловероятна - никаких вероятностей нет. Просто твердо говорим, что гипотеза неверна. Все оговорки, что маловероятные события иногда случаются, мы оставляем там же, где оговорки, что мы могли ошибиться при подсчете, забыть помыть пробирку, страдать галлюцинациями и так далее. Просто "гипотеза неверна", а то, что всё наше знание в принципе подвержено ошибкам, оставили философам. (Здесь я замел под ковер, что надо выбрать рассматриваемое событие и выбрать, что значит "вероятность события мала". Это отдельная тема, не надо ее пока примешивать.)
Пример - чистый софизм, в котором гипотезу по дороге поменяли. Полезен он ровно тем, что так случается и на практике, совершенно бессознательно.
no subject
Date: 2011-11-22 06:05 pm (UTC)Но я все-таки не понимаю. Сначала вы говорите: "Первый список из трех пунктов в посте правильно описывает, как надо применять p-values", а потом "Пример - чистый софизм, в котором гипотезу по дороге поменяли.", хотя в первом примере именно упор на неправильной интерпретации p value делается и подмена гипотез тоже происходит - от верности нулевой гипотезы к ее (не)вероятности.
no subject
Date: 2011-11-22 07:12 pm (UTC)Пример, на мой взгляд, устроен так: мы "посчитали p-value" одной гипотезы, после чего отвергли совершенно другую, просто с "похожим именем". Как если бы мы сказали, что от Москвы до Ялты ехать далеко, поэтому в пивную "Ялта" (которая за углом) мы не пойдем. То есть тут дело вообще не в интерпретации p-value. Не знаю, так стало понятно?
Про всевозможные условия, которые мы оговорить не можем, я вот к чему говорил. Гипотеза - это, по-хорошему, ровно одно распределение вероятностей. Но для нас некоторые распределения неразличимы (мы не можем либо не хотим их различать), и все эти распределения мы объединяем в одну гипотезу. Мы их не сравниваем между собой и не ранжируем их вероятности - мы их вообще не различаем. Я математик и мне естественно это выразить словами "гипотезой называется класс распределений вероятностей", а Вас, видимо, сбивает с толку.
no subject
Date: 2011-11-23 12:36 pm (UTC)В чем принципиальные отличия первого рассуждения от аналогии я так и не понял :(
no subject
Date: 2011-11-23 09:20 pm (UTC)1) При применении "первого рассуждения" вместо слов "нулевая гипотеза" в пунктах 1 и 3 нужно подставить некоторое математическое выражение (одно и то же). В первом приближении, это математическое выражение - вероятностное распределение на всевозможных исходах нашего эксперимента.
2) В реальной жизни вместо математического выражения (сложного и длинного) пишут неформальный текст на естественном языке. Предполагается, что каждый желающий по этому тексту сам может восстановить подразумеваемое математическое выражение.
3) В "аналогии" математическое выражение, восстанавливаемое из текста пункта 1, отличается о математического выражения, восстанавливаемого из текста пункта 3. Поэтому "аналогия" не следует "первому рассуждению".
no subject
Date: 2011-11-23 09:38 pm (UTC)no subject
Date: 2011-11-23 10:13 pm (UTC)пункт 3 "следовательно, нулевая гипотеза скорее всего неверна" обычно ошибочно понимают как "P-value - это вероятность нулевой гипотезы". То есть, Вы считаете, что аналогия в точности следует этому ошибочному пониманию, приводит к абсурду и тем показывает ошибочность?
no subject
Date: 2011-11-23 11:09 pm (UTC)no subject
Date: 2011-11-24 12:03 am (UTC)no subject
Date: 2011-11-24 01:12 am (UTC)Собственно на этом размышления внутри логики эксперимента заканчиваются.
Дальше можно делать разные выводы и предполагать разные вещи, но при этом выходя за рамки этого отдельного эксперимента и размышляя о совокупности всех экспериментов или наблюдений в целом. Может быть мы не в Америке. Может быть мы выбрали не случайного человека. Может мы неправильно понимаем, что такое сенатор. И т.д.
no subject
Date: 2011-11-24 01:17 am (UTC)no subject
Date: 2011-11-26 04:59 pm (UTC)no subject
Date: 2011-11-22 09:50 pm (UTC)(это не обязательно, просто приятно узнать, как Вас зовут)
no subject
Date: 2011-11-23 09:58 pm (UTC)А имя - что значит имя? Роза пахнет розой, хоть Розой назови ее, хоть Даздрапермой :)
Я понимаю, что и хозяин журнала, и Вы здесь под настоящими именами (Ваши комментарии, если я правильно помню, я видел в каких-то обсуждениях гибели Алехновича), но мне хотелось бы оставаться анонимным. Приношу свои извинения.
no subject
Date: 2011-11-24 01:18 am (UTC)