После того, как гипотеза выбрана, надо выбрать, как ее тестировать. Для этого надо выбрать какие-то события, посмотреть, произошли ли они (то есть сравнить их с наблюдениями), посчитать их вероятности при каждом из распределений нашей гипотезы, и если оказалось, что произошло маловероятное событие - отвергнуть гипотезу по принципу Курно. Лирическое отступление. Как выбирать события - это сложная и очень плохо разработанная тема; в основном, у нас есть разные практически проверенные рецепты (например, дать выбрать события опытному статистику, но до того, как ему показали наблюдения). Идеология p-values предлагает такой способ выбора событий: надо взять какую-нибудь вещественнозначную статистику f (статистикой здесь называется не наука, а любая детерминированная функция от наблюдений), у которой очень большие (либо очень маленькие) значения мы считаем очевидно невозможными, и рассмотреть событие {f(X) больше f(x_0)}, где x_0 - то, что мы наблюли, а X - случайное наблюдение (в каждом из распределений гипотезы). Конец лирического отступления.
Конечно, в жизни никто гипотезы явно не выписывает, а говорят неформально. Например, "нулевая гипотеза, что X - американец, против альтернативы, что X - марсианин". В зависимости от контекста, это может подразумевать примерно такие гипотезы в качестве нулевой: "X равновероятно извлекается из множества всех американцев", "X равновероятно извлекается из множества, где не менее 80% американцы, а не более 20% - марсиане", "X равновероятно извлекается из множества американцев, в котором все значимые характеристики находятся в тех же пропорциях, что и во множестве всех американцев", и так далее.
Займемся, наконец, интерпретацией условия "Если человек американец, то очень маловероятно что он сенатор. Вот перед нами сенатор (взяли первого попавшегося человека, оказалось — сенатор)". Здесь неформально изложены и гипотеза, и событие, которое должно быть маловероятно при любом из распределений из этой гипотезы, и даже наблюдение. Начало бесспорно: возможные наблюдения у нас - люди; событие, используемое при тестировании - "человек является сенатором". Какие же гипотезы мог иметь в виду тот, кто написал эту фразу? Более-менее, только "человек выбирается равновероятно во множестве всех американцев". (Если Вы можете предложить другую, с удовольствием рассмотрю.) А какие не мог? Например, "человек как-то выбирается из какого-то множества американцев": среди распределений, принадлежащих этой гипотезе, есть и равновероятное на сенате, однако для этого распределения наше событие не маловероятное, а совсем наоборот.
Наше наблюдение отвергает гипотезу - мы же увидели того самого маловероятного сенатора. Важно, что гипотезу мы отвергаем целиком, то есть вывод звучит так: неверно, что человек выбран равновероятно во множестве всех американцев. То есть либо не среди американцев, либо не равновероятно (естественные подозревать, конечно, что именно равновероятность обеспечить не удалось.) Никакого абсурда.
"Следовательно, он скорее всего не американец" может быть неправильным построением отрицания для высказывания "A и B" - вместо верного "не A или не B" мы почему-то сказали "не A". Но может быть и неосознанной подменой гипотезы. Какова же подменная гипотеза? А та самая, некорректная "человек как-то выбирается из какого-то множества американцев". Неудивительно, что неформальный вывод абсурден - мы по дороге сменили тезис.
Осталось понять, почему мы так легко согласились на подмену гипотезы (тривиальную логическую ошибку мы бы легко заметили). А потому, что обе гипотезы имеют совершенно естественный вид и могут неформально выражаться в одинаковых словах. Рассмотрим другое неформальное описание: "Если человек американец, то очень маловероятно, что у него сердце справа, зеленая кровь и голова не винтах". Какая гипотеза тут подразумевается? Вполне возможно, что как раз бывшая "некорректная": "человек как-то выбран из какого-то множества американцев".
no subject
Date: 2011-11-22 03:10 am (UTC)После того, как гипотеза выбрана, надо выбрать, как ее тестировать. Для этого надо выбрать какие-то события, посмотреть, произошли ли они (то есть сравнить их с наблюдениями), посчитать их вероятности при каждом из распределений нашей гипотезы, и если оказалось, что произошло маловероятное событие - отвергнуть гипотезу по принципу Курно. Лирическое отступление. Как выбирать события - это сложная и очень плохо разработанная тема; в основном, у нас есть разные практически проверенные рецепты (например, дать выбрать события опытному статистику, но до того, как ему показали наблюдения). Идеология p-values предлагает такой способ выбора событий: надо взять какую-нибудь вещественнозначную статистику f (статистикой здесь называется не наука, а любая детерминированная функция от наблюдений), у которой очень большие (либо очень маленькие) значения мы считаем очевидно невозможными, и рассмотреть событие {f(X) больше f(x_0)}, где x_0 - то, что мы наблюли, а X - случайное наблюдение (в каждом из распределений гипотезы). Конец лирического отступления.
Конечно, в жизни никто гипотезы явно не выписывает, а говорят неформально. Например, "нулевая гипотеза, что X - американец, против альтернативы, что X - марсианин". В зависимости от контекста, это может подразумевать примерно такие гипотезы в качестве нулевой: "X равновероятно извлекается из множества всех американцев", "X равновероятно извлекается из множества, где не менее 80% американцы, а не более 20% - марсиане", "X равновероятно извлекается из множества американцев, в котором все значимые характеристики находятся в тех же пропорциях, что и во множестве всех американцев", и так далее.
Займемся, наконец, интерпретацией условия "Если человек американец, то очень маловероятно что он сенатор. Вот перед нами сенатор (взяли первого попавшегося человека, оказалось — сенатор)". Здесь неформально изложены и гипотеза, и событие, которое должно быть маловероятно при любом из распределений из этой гипотезы, и даже наблюдение. Начало бесспорно: возможные наблюдения у нас - люди; событие, используемое при тестировании - "человек является сенатором". Какие же гипотезы мог иметь в виду тот, кто написал эту фразу? Более-менее, только "человек выбирается равновероятно во множестве всех американцев". (Если Вы можете предложить другую, с удовольствием рассмотрю.) А какие не мог? Например, "человек как-то выбирается из какого-то множества американцев": среди распределений, принадлежащих этой гипотезе, есть и равновероятное на сенате, однако для этого распределения наше событие не маловероятное, а совсем наоборот.
Наше наблюдение отвергает гипотезу - мы же увидели того самого маловероятного сенатора. Важно, что гипотезу мы отвергаем целиком, то есть вывод звучит так: неверно, что человек выбран равновероятно во множестве всех американцев. То есть либо не среди американцев, либо не равновероятно (естественные подозревать, конечно, что именно равновероятность обеспечить не удалось.) Никакого абсурда.
"Следовательно, он скорее всего не американец" может быть неправильным построением отрицания для высказывания "A и B" - вместо верного "не A или не B" мы почему-то сказали "не A". Но может быть и неосознанной подменой гипотезы. Какова же подменная гипотеза? А та самая, некорректная "человек как-то выбирается из какого-то множества американцев". Неудивительно, что неформальный вывод абсурден - мы по дороге сменили тезис.
Осталось понять, почему мы так легко согласились на подмену гипотезы (тривиальную логическую ошибку мы бы легко заметили). А потому, что обе гипотезы имеют совершенно естественный вид и могут неформально выражаться в одинаковых словах. Рассмотрим другое неформальное описание: "Если человек американец, то очень маловероятно, что у него сердце справа, зеленая кровь и голова не винтах". Какая гипотеза тут подразумевается? Вполне возможно, что как раз бывшая "некорректная": "человек как-то выбран из какого-то множества американцев".
[Продолжение следует!]