shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2010-03-20 11:46 pm
Entry tags:

Научный подход: Данные и Методы

Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.


Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

[identity profile] ssteplana.livejournal.com 2010-03-21 04:27 am (UTC)(link)
У климатологов вроде бы большая часть данных (наблюдения с метеостанций) открыта. NASA, NOAA доступны. ~20% это данные, которые страны, где были сделаны наблюдения, не хотят открывать. Т.е. данные передаются климатологам для расчетов, но остаются "частными".

[identity profile] kit58.livejournal.com 2010-03-21 05:09 am (UTC)(link)
Good point. Я думаю, что все эти страсти к науке имеют весьма посредственное отношение. Из серии "знал бы за что - убил бы". То есть те кому "не нравится" история с потеплением придираются потому что могут придираться, а те кому она "нравится" не придираются потому что могут не придираться.

[identity profile] achernitsky.livejournal.com 2010-03-21 06:26 am (UTC)(link)
В морской биологии в 19 веке статьи содержали длиннейшие списки видов, обнаруженных на каждой станции. В 20 веке приводили лишь усредненные данные, приходилось верить авторам. А сейчас, смотрю отчеты, все станции снова описываются по видам.

[identity profile] a7-reader.livejournal.com 2010-03-21 07:27 am (UTC)(link)
>при публикации ученый обязан подробно описать все методы, необходимые
>для воспроизведения его работы, а после публикации, обязан предоставить
>реактивы и-или необработанные данные всем желающим. На практике, на
>самом деле, все бывает намного сложнее и запутаннее.

не то чтоб я против науки. это скорее размышление, чем вывод. но если есть такие нерешаемые на корню проблемы с воспроизводимостью и дстоверностью (которые я так понимаю будут в связи с нарастающим объемом информации только прогрессировать)- может ест смысл пересмотреть в общественном сознании доверие к достоверности научной парадигмы. а то сейчас повсеместно - ученые доказали, ученые прогнозируют... а что они так могут доказывать и прогнозировать - частные частности на основании произвольно отобранных из из произвольной селекции данных. типа если результат достигнут то все правильно было. а как результат такой проверять? кто знает каким боком этот "результат" потом вылезет? как можна на таких малых временных промежутках обпробации и таких данных гарантировать хоть что-то насчет результата?

[identity profile] duchifat.livejournal.com 2010-03-21 07:31 am (UTC)(link)
а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим.

Признаться, это очень странное требование. Никакого обязательства хранить свои данные / черновики / реактивы всю жизнь IMHO никто не несет.

на Большом Хардонном Коллайдере

[identity profile] demographer.livejournal.com 2010-03-21 07:38 am (UTC)(link)
есть и неопытные науки, до которых пассаж не очень применим
типа икономикса или демографии :)

[identity profile] kelavrik-0.livejournal.com 2010-03-21 09:38 am (UTC)(link)
А можно попросить комментаторов предъявить черновики своих программ (если писали). Бухгалтеров предъявить все чеки. И тд.

[identity profile] plakhov.livejournal.com 2010-03-21 10:35 am (UTC)(link)
А можно попросить комментаторов предъявить черновики своих программ (если писали)
Замечание потрясающе глупое. Надеюсь, что это случайность.

[identity profile] kelavrik-0.livejournal.com 2010-03-21 10:49 am (UTC)(link)
Замечание подчёркивает, что далеко не всё в нашей жизни документировано. В науке же документированность намного лучше.

[identity profile] plakhov.livejournal.com 2010-03-21 10:57 am (UTC)(link)
Общее замечание. Вы опираетесь на презумпцию честности исследователя. Чудесно, когда можно так поступать.

Пара частных замечаний.
Некоторые методы анализа построены так, что они невоспроизводимы в точности. <...> Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.
Я не биолог, занимаюсь скорее чем-то близким к machine learning'у, но по-моему как. Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация. В частности, результат может быть "не воспроизводим в точности", но утверждение "этот результат мог быть получен этим методом на этих данных" должно оставаться проверяемым.

Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области?
Мне кажется, что да. Кажется, что в этом и состоит отличие науки от R&D на производстве. Понятно, что речь не о каких-то крайностях - не нужно пытаться учить дураков или троллей, не нужно посвящать этому 24 часа в сутки в ущерб всему остальному, и тд и тп. Но "в принципе", при разумных ограничениях - да, должно.

[identity profile] plakhov.livejournal.com 2010-03-21 11:20 am (UTC)(link)
Я работаю в области программирования, в которой часто нужно сравнивать два варианта разрабатываемой системы на больших массивах данных, чтобы получить понимание того, какая из них статистически ведет себя "лучше". Мне кажется, это довольно близкая ситуация к теме поста.
Как и в науке, для этого придумано много методов. Как и в науке, вес и значимость исследования прямо зависят от того, окажутся ли результаты исследования положительными (и даже карьера "исследователя", пусть не прямо, но косвенно точно). И у нас принята презумпция честности исследователя. И у нас проблемы с объемами данных, с рандомизированными методами, с достаточностью выборки, с устареванием данных, и т.п. И, несмотря на то, что это не наука, несмотря на то, что изучаемая "область" очень замкнутая, не имеет почти никакой значимости вне компании (а вне индустрии и подавно), несмотря на все это, стандарты ясности и повторяемости, судя по тому, что я здесь читаю, точно как минимум не ниже.

[identity profile] vvz.livejournal.com 2010-03-21 11:29 am (UTC)(link)
> Понятно, что речь не о каких-то крайностях - не нужно пытаться учить дураков или троллей, не нужно посвящать этому 24 часа в сутки в ущерб всему остальному, и тд и тп.

А сколько времени на это нужно тратить? И, извините, кто за это будет платить?

Вот вдруг, с какого-то панталыку, кто-то решит, что не верит в hERG и потребует от меня научить его практической электрофизиологии. Где то ограничение, по которому я его должен привести в лабораторию и научить методу, которым пользуюсь?

Приводить только по выходным, только с 6 до 8 вечера и т.п.? Ведь многие методы хоть и описаны в деталях, но учат им не по книжкам, а на экспериментальных установках.

В обязанности учёного должно входить доложить о методе, который он использовал для получения данных, и только если этот метод уникальный и никто, кроме него, больше им не пользуется, научить кого-то (причём желательно не человека с нулевого уровня, а своих коллег), дабы они могли проверить результаты. Если же этот метод признан наукой (подвтерждён результатами из разных лабораторий), то никто никого учить не обязан. Сомневаешься в данных - иди, учись той или иной дисциплине, приходи в лабораторию (находи деньги или получай разрешение от начальства) и попробуй опровергнуть.

[identity profile] kelavrik-0.livejournal.com 2010-03-21 12:32 pm (UTC)(link)
Ну так все промежуточные данные сохраняются? Все исследования, особенно основанные на случайных числах. И я говорю не столько о разработке алгоритма, сколько о реализации. Ну не хранятся черновые оценки долго. Нет необходимости.

[identity profile] plakhov.livejournal.com 2010-03-21 01:09 pm (UTC)(link)
Вы меня, кажется, в экстремисты записали. Я всего лишь что хочу сказать.
Сейчас постоянно вижу, что люди, которые делают, и люди, которые учат, как делать - это сильно разные люди. И это сильно не на пользу никому. То есть может быть в вашей области все иначе, но вот в AI, в machine learning, и в computer science вообще это так. И по-моему как раз потому, что настроения "это не наша обязанность" преобладают.

А сколько времени на это нужно тратить? И, извините, кто за это будет платить?
А сколько времени и сил нужно тратить на те или иные исследования? Кто вообще платит за науку и образование? Странно "в двух словах" на такие вопросы отвечать, имхо.

невоспроизводимость и случайные числа

[identity profile] misha-b.livejournal.com 2010-03-21 01:22 pm (UTC)(link)

Насчет bootstrapping и других методов, основанных на случайных выборках Ваше утверждение не совсем верно. Как правило, для выборок используются генераторы (псевдо)случайных чисел и результат полностью воспроизводим, если известно начальное значение (seed) заданное генератору.

В некоторых статьях это значение указывается.

[identity profile] vigna.livejournal.com 2010-03-21 01:22 pm (UTC)(link)
Не всю жизнь, но в течение трёх или пяти лет - во многих журналах есть такое требование.

[identity profile] riverock.livejournal.com 2010-03-21 01:30 pm (UTC)(link)
//Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. //Хранить столько данных невозможно даже при самых современных технологиях хранения //информации.

Откуда эти цифры? на сайте самого керна говорится что у ниг грид 15петабайт
http://public.web.cern.ch/public/en/lhc/Computing-en.html

в других источниках указывыается что в одну сек генерится 150мб инфы.
http://www.google.com/search?num=30&hl=en&rlz=1B3GGGL_ruRU331RU331&q=petabyte+cern&btnG=Search&aq=f&aqi=&aql=&oq=&gs_rfai=


сути поста это конечно не меняет. просто поразила цифра в 1петабай/сек

[identity profile] the-boris.livejournal.com 2010-03-21 04:33 pm (UTC)(link)
А публике ученым нужно доверять, потому что опровергнуть их могут только другие ученые. Это такой замкнутый круг из которого нет выхода.
В качестве бонуса, обманывать ученые могут только других ученых а не публику. Публике всегда достается правда (которая существует на текущий момент - но это уже непреодолимые ограничения человеческой природы)

[identity profile] slavka.livejournal.com 2010-03-21 04:49 pm (UTC)(link)
если бы
имхо, публике часто достается "правда" (которая выгодна на текущий момент самим ученым и тем кто их финансирует)

[identity profile] slavka.livejournal.com 2010-03-21 04:50 pm (UTC)(link)

1) про всю жизнь никто не говорил
2) а на чьи деньги делались исследования?

[identity profile] the-boris.livejournal.com 2010-03-21 04:55 pm (UTC)(link)
Мне кажется что наука не работает без презумпции честности.
И пока в обязанности ученого НЕ входит обучение и тренировка, хотя крупные агенства занимаются популяризацией науки (Смотрите Hubble 3D во всех IMAX'ах города) это не совсем то что вы имеете в виду, верно? Вы не может рассказать как это должно выглядеть? Многие последствия важные для обывателя (ради чего он вообще бы стал лезть разбираться в науку) следует из некой общей научной концепции созданой сотней, а то и тысячей ученых. Чтобы разобраться с одной деталью картины вам потребуется примерно тоже самое время что заняло у ученого обучение+исследование. Или вам придется все равно верить ему на слово. Ясное дело этого не достаточно для валидации всей концепции, так как таким образом разобрались только с одной деталью (какой бы важной она не была). Как быть?

[identity profile] the-boris.livejournal.com 2010-03-21 04:57 pm (UTC)(link)
А ничего не поделаешь, или верим ученым или нет.

[identity profile] slavka.livejournal.com 2010-03-21 05:26 pm (UTC)(link)
ну тогда надо верить, но больно наказывать тех кто обманул доверие
утаил данные, не укладываюпиеся в теорию? получи 50 плетей
итд

[identity profile] the-boris.livejournal.com 2010-03-21 05:38 pm (UTC)(link)
Больно, их выгоняют на мороз. Они больше не ученые.

[identity profile] vasja-iz-aa.livejournal.com 2010-03-21 05:50 pm (UTC)(link)
Вы забыли упомянуть, что в подавляющем большинстве случаев повторять чужую работу просто никто не будет. У тех кто может -- у них своя работа есть, гораздо более им важная и интересная. А у тех кто не может, у тех все равно не получится, сколько данных в открытый доступ не выкладывай.

Так что ни чему, кроме лишних бессмысленых расходов исполнение этого требования не приведет.

Page 1 of 3