shvarz: (Default)
[personal profile] shvarz
Собрался с духом и прочитал вот эту статью. Если у кого доступа нет, не плачьте, я вам сейчас все напою.

Два года назад были обнародованы результаты клинического испытания ВИЧ вакцины в Таиланде и, впервые за 30 лет исследований, был получен положительный сигнал - 31% эффективности в предотвращении инфекции. Стат-анализ выдал p=0.04 (то есть результат статистически-достоверный по общепринятым канонам). Авторы этой статьи (среди которых есть и сами исследователи этой вакцины), начинают с того, что "p value" - концепция не интуитивная и часто неправильно интерпретируемая. Поэтому они сейчас обсчитают те же результаты байесовскими методами, которые дают ответ на интуитивно-понятный вопрос "Какова вероятность того, что вакцина (не) работает?"

Хитрость байесовской статистики заключается в том, что для нее требуется ваша "изначальная, до-эксперимента-сформулированная гипотеза" о том, что именно вы в эксперименте получите. Я не знаю где как, а в биологии часто фиг сформулируешь, что именно ты ожидаешь. В данном случае, прямо как в анекдоте, можно сказать, что вероятность того, что вакцина работает, равна 50%, потому что "либо она работает, либо нет". А можно сказать, что "наверняка не сработает" - потому что дурацкая совершенно вакцина и работать не должна. Вообще сколько людей, столько и мнений.

В результате получаем ключевую таблицу из статьи:


Верхняя строка - "изначальная, до-эксперимента-сформулированная гипотеза" о вероятности того, что вакцина работать не будет.
Вторая строка - стат.анализ полученных данных на предмет вероятности того, что вакцина не работает.
Третья и четвертая строки - соответственно вероятности того, что вакцина работает и того, что увеличивает число инфекций.

Результаты, конечно, впечатляющие - от вероятности в 3% до вероятности в 70% :) Выбирай, какие хочешь.

Я уж лучше, по-старинке, на p value посмотрю.

Bayes statistics

Date: 2011-09-19 08:23 pm (UTC)
From: [identity profile] misha-b.livejournal.com

Да, откуда это prior distribution берется почти никогда не понятно. Часто его выберают просто для удобства вычислений.

Re: Bayes statistics

Date: 2011-09-19 08:27 pm (UTC)
From: [identity profile] shvarz.livejournal.com
И хорошо, если не "work backward" для нужной конечной цифры, а действительно prior :)

Re: Bayes statistics

Date: 2011-09-19 08:56 pm (UTC)
From: [identity profile] misha-b.livejournal.com

Ну, цифирьки подогнать -- это всегда дело нужное и полезное.

Date: 2011-09-19 08:41 pm (UTC)
From: [identity profile] n0mad-0.livejournal.com
pvalue не лучше. то, что в нем не используются априорная вероятность гипотезы лишь маскирует его проблемы.

Когда мы из головы выдумываем уровень значимости 1-0.0001 мы как раз пробегаем етот спектр 3-70% (грубо говоря)

Date: 2011-09-19 08:42 pm (UTC)
From: [identity profile] n0mad-0.livejournal.com
[1%, 0.0001%]

Date: 2011-09-19 08:47 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Конечно проблемы есть, но к ним мы уже привыкли :)

Date: 2011-09-19 10:27 pm (UTC)
From: [identity profile] thevlad.myopenid.com (from livejournal.com)
при чем тут вообще уровень значимости? можно ведь и тупо на P(statistic > t) смотреть.

Date: 2011-09-20 08:20 am (UTC)
From: [identity profile] n0mad-0.livejournal.com
а как вы эту вероятность интерпретируете? (если я верно вас понял).
Т.е. вы открываете статью с p-value = x. Какие значения вы считаете достаточными, чтобы поверить исследованию?

Date: 2011-09-20 01:12 pm (UTC)
From: [identity profile] thevlad.myopenid.com (from livejournal.com)
Если small sample, то > 0.05 вполне достаточно. ну и что значит "поверить", это ведь не бинарная функция, скорее лишь повод что нужно провести еще одно такое же исследование. То есть в случаи малой выборки эта проблема "доверия" она вообще не особо решается, что с байесом, что без. И тут уже влияют другие факторы, чем сложнее методика тем проще ее абьюзить и вообще "подгонять циферки".

Если данных много, и p-value <10^-9 нуль гипотеза отвергнута, и эффект скорее всего значительный. 10^-3 < p-value < 10^-6 нуль гипотеза отвергнута, но эффект возможно мало значительный. Если > 10^-2-10^-3, то это повод задуматься что авторы исследования страдают фигней.

Date: 2011-09-20 01:30 pm (UTC)
From: [identity profile] n0mad-0.livejournal.com
если pvalue маленькое и много данных - то как раз эффект может быть незначительный. иными словами, если нулевая гипотеза состоит в том, что монетка честная, а на самом деле P(решки) = 0.49999, то имея возможность генерировать много данных мы можем получить сколь угодно маленькое pvalue. При этом отличие вероятности в 5-м знаке после запятой вряд ли можно назвать значительным эффектом.

http://en.wikipedia.org/wiki/P-value#Misunderstandings пункт (7)

Date: 2011-09-20 02:29 pm (UTC)
From: [identity profile] thevlad.myopenid.com (from livejournal.com)
В теории да, на практике, чтобы иметь p-value < 10^-9 и малозначительный эффект, должно сильно не повезти. Лень считать, но чтобы при P(решки) = 0.49999 получить p-value 10^-9, выборка должна быть не реального размера. Сильно не повезти с малозначительным эффектом = скорее всего эффект значительный.

Оттуда же "The p-value does not indicate the size or importance of the observed effect. *The two do vary together*"

Date: 2011-09-20 02:44 pm (UTC)
From: [identity profile] n0mad-0.livejournal.com
я скорее про то, что 10^-9 и неоченьмного данных куда лучше чем 10^-9 и много данных.

Date: 2011-09-20 02:46 pm (UTC)
From: [identity profile] n0mad-0.livejournal.com
с точки зрения "силы эффекта"

Date: 2011-09-20 03:35 pm (UTC)
From: [identity profile] thevlad.myopenid.com (from livejournal.com)
Отчасти да, но это еще один шаг в сторону "бредятины", определять по p-value "силу эффекта", когда оно имеет "ортогональный" смысл - вероятность что нуль гипотеза была отвергнута чисто случайно.

Просто на практике, получить с мало значительным эффектом "зашкаливающее" значение p-value достаточно сложно/маловероятно и это по крайней мере ни так бредово как кажется. Ну и тут вопрос, конечно, что считать значительным, для генератора псевдо случайных чисел, P(0) = 0.49 это значительный эффект, для чего-то другого - нет.

Date: 2011-09-20 05:27 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Ну, это от практики зависит. Достаточно обычным образом такая ситуация наблюдается если выборки гигантского размера, а это не такая уж редкость во многих практических областях. А если данные черпнуть из какой-нибуть общедоступной коллекции, то и в других областях науки можно повторить тот же трюк.

Date: 2011-09-20 01:22 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я считаю <0.05. Да, эта цифра взята с потолка и могло бы быть 0.1 или 0.01, но по крайней мере это не 0.2 и не 0.9.

Date: 2011-09-20 05:28 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
на p-value лучше не смотреть

Date: 2011-09-20 01:21 pm (UTC)
From: [identity profile] shvarz.livejournal.com
А на что же тогда смотреть?

Date: 2011-09-20 04:57 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
На величину эффекта.

Но в общем то, зависит от обстоятельств. Бывает, что лучше всего на губы смотреть.

Date: 2011-09-20 07:27 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Величина эффекта без pvalue, это не лучше, чем pvalue без величины эффекта.

Date: 2011-09-21 01:27 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Можно, в принципе, обсудить и этот глубокотеоретический вопрос.
Но практически гораздо чаще встречаются не полностью отстsвующие, а частичные указания. Как то вроде либо слабая положительная корреляция с p-value .01 или статистически достоверная корреляция .4 Второе много лучше.

Date: 2011-11-23 05:52 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я тут немного почитал на этот счет и да, можно сказать, меня переубедили.

Date: 2011-11-24 06:48 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
ну я, в общем то, сослался на этот старый разговор только для того, что бы подтвердить: в самом общем смысле автор ролика прав, есть действительно такая проблема, что ученые зря придают слишком большое значения абсолютной величине p-value. но вот стиль, способы и методы, которыми ролик сделан, они не столь однозначно хороши и верны

Date: 2011-09-20 09:11 am (UTC)
From: [identity profile] n0mad-0.livejournal.com
кстати, они априорную вероятность 0.61 почти не с потолка взяли

Date: 2011-09-20 10:42 am (UTC)
From: [identity profile] shvarz.livejournal.com
Именно что с потолка. Они там усреднили "предыдущие тестирования", то есть яблоки с апельсинами и с голландским сыром.

Date: 2011-09-20 11:49 am (UTC)
From: [identity profile] alexey-rom.livejournal.com
Ну, не усреднили вроде. Просто "основана на", а как именно, не сказано. Может, в тексте статьи есть?

Date: 2011-09-20 01:19 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Если вы начинаете с яблок, апельсинов и голландского сыра, то можете хоть усреднять, хоть делить, хоть компот делать - биологического смысла в комбинации этих цифр вы не найдете. Там два испытания вакцин, которые в принципе отличаются от этой, плюс "третье" испытание собранное из 5 разных исследований вакцин, которые более-менее похожи на эту. Гадание на кофейной гуще.

Date: 2011-09-20 05:07 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Смысл есть даже для биологов. Если вы сто раз проведете испытание плацебо, то вероятность того, что в одном из них обработаные стандартным образом результаты дадут приличное p-value будет выше, чем в случае единичного испытания. Собственно, так вся японская наука и делается. Ну, Вы поняли -- не вся, конечно, но.

Date: 2011-09-20 08:04 pm (UTC)
From: [identity profile] shvarz.livejournal.com
А при чем тут это? Если вы проводите испытания одного и того же плацебо сто раз, то это одно дело, а если вы каждый раз тестируете что-то новое (как в этом случае), то предыдущие испытания тут ни при чем.

Date: 2011-09-20 10:18 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Откуда плацебо знает, новое оно или старое? Пусть будет правильная монетка, если плацебо вносит лишние ассоциации. безразлично ведь, сто раз испытываем одну и туже монету, сто раз испытываем каждый раз новую или горсть из ста монет трясем и испытываем параллельно. Девять решек из десяти бросков монеты мы получим равновероятно.

Date: 2011-09-20 09:14 am (UTC)
etoile_verte: (Default)
From: [personal profile] etoile_verte
Чёрт, неужели всем понятно, что означают столбцы в этой таблице? Со строками понятно даже мне :) 0.61 выбрана потому, что она вроде бы больше похожа на ожидаемую правду, да?

Date: 2011-09-20 01:20 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Столбцы - ожидаемые вероятности. 0.61 взята с потолка.

Date: 2011-09-20 04:55 pm (UTC)
etoile_verte: (Default)
From: [personal profile] etoile_verte
Ага-а, то-то я понять не могу :)

Date: 2011-09-20 11:16 pm (UTC)
From: [identity profile] yurvor.livejournal.com
Байесова статистика тут вообще плохо применима, мне кажется. Вот тут - http://en.wikipedia.org/wiki/Bayesian_inference - есть хороший пример про Фреда. Байесова статистика хороша тогда, когда надо выяснить вероятность уже совершенных событий (грубо говоря, Фред уже выбрал коробку, но как, мы не знаем, посему тестируем), но ничего не говорит о том, как Фред будет выбирать коробку в следующий раз.

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Aug. 3rd, 2025 02:01 pm
Powered by Dreamwidth Studios