shvarz: (Default)
[personal profile] shvarz
Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.


Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

Date: 2010-03-21 04:27 am (UTC)
From: [identity profile] ssteplana.livejournal.com
У климатологов вроде бы большая часть данных (наблюдения с метеостанций) открыта. NASA, NOAA доступны. ~20% это данные, которые страны, где были сделаны наблюдения, не хотят открывать. Т.е. данные передаются климатологам для расчетов, но остаются "частными".

Date: 2010-03-21 05:09 am (UTC)
From: [identity profile] kit58.livejournal.com
Good point. Я думаю, что все эти страсти к науке имеют весьма посредственное отношение. Из серии "знал бы за что - убил бы". То есть те кому "не нравится" история с потеплением придираются потому что могут придираться, а те кому она "нравится" не придираются потому что могут не придираться.

Date: 2010-03-21 06:26 am (UTC)
From: [identity profile] achernitsky.livejournal.com
В морской биологии в 19 веке статьи содержали длиннейшие списки видов, обнаруженных на каждой станции. В 20 веке приводили лишь усредненные данные, приходилось верить авторам. А сейчас, смотрю отчеты, все станции снова описываются по видам.

Date: 2010-03-21 07:27 am (UTC)
From: [identity profile] a7-reader.livejournal.com
>при публикации ученый обязан подробно описать все методы, необходимые
>для воспроизведения его работы, а после публикации, обязан предоставить
>реактивы и-или необработанные данные всем желающим. На практике, на
>самом деле, все бывает намного сложнее и запутаннее.

не то чтоб я против науки. это скорее размышление, чем вывод. но если есть такие нерешаемые на корню проблемы с воспроизводимостью и дстоверностью (которые я так понимаю будут в связи с нарастающим объемом информации только прогрессировать)- может ест смысл пересмотреть в общественном сознании доверие к достоверности научной парадигмы. а то сейчас повсеместно - ученые доказали, ученые прогнозируют... а что они так могут доказывать и прогнозировать - частные частности на основании произвольно отобранных из из произвольной селекции данных. типа если результат достигнут то все правильно было. а как результат такой проверять? кто знает каким боком этот "результат" потом вылезет? как можна на таких малых временных промежутках обпробации и таких данных гарантировать хоть что-то насчет результата?

Date: 2010-03-21 04:33 pm (UTC)
From: [identity profile] the-boris.livejournal.com
А публике ученым нужно доверять, потому что опровергнуть их могут только другие ученые. Это такой замкнутый круг из которого нет выхода.
В качестве бонуса, обманывать ученые могут только других ученых а не публику. Публике всегда достается правда (которая существует на текущий момент - но это уже непреодолимые ограничения человеческой природы)

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-21 04:49 pm (UTC) - Expand

(no subject)

From: [identity profile] the-boris.livejournal.com - Date: 2010-03-21 04:57 pm (UTC) - Expand

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-21 05:26 pm (UTC) - Expand

(no subject)

From: [identity profile] the-boris.livejournal.com - Date: 2010-03-21 05:38 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 05:22 pm (UTC) - Expand

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-22 05:26 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 05:32 pm (UTC) - Expand

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-22 05:41 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 05:57 pm (UTC) - Expand

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-22 06:09 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 06:20 pm (UTC) - Expand

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-22 08:19 pm (UTC) - Expand

Date: 2010-03-21 07:31 am (UTC)
From: [identity profile] duchifat.livejournal.com
а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим.

Признаться, это очень странное требование. Никакого обязательства хранить свои данные / черновики / реактивы всю жизнь IMHO никто не несет.

Date: 2010-03-21 09:38 am (UTC)
From: [identity profile] kelavrik-0.livejournal.com
А можно попросить комментаторов предъявить черновики своих программ (если писали). Бухгалтеров предъявить все чеки. И тд.

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-21 10:35 am (UTC) - Expand

(no subject)

From: [identity profile] kelavrik-0.livejournal.com - Date: 2010-03-21 10:49 am (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-21 11:20 am (UTC) - Expand

(no subject)

From: [identity profile] kelavrik-0.livejournal.com - Date: 2010-03-21 12:32 pm (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 09:12 am (UTC) - Expand

(no subject)

From: [identity profile] kelavrik-0.livejournal.com - Date: 2010-03-22 11:56 am (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 12:42 pm (UTC) - Expand

(no subject)

From: [identity profile] kelavrik-0.livejournal.com - Date: 2010-03-22 12:49 pm (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 12:57 pm (UTC) - Expand

(no subject)

From: [identity profile] kelavrik-0.livejournal.com - Date: 2010-03-22 02:03 pm (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 02:19 pm (UTC) - Expand

(no subject)

From: [identity profile] kelavrik-0.livejournal.com - Date: 2010-03-22 02:28 pm (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 02:29 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 05:29 pm (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 05:43 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 05:50 pm (UTC) - Expand

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 05:57 pm (UTC) - Expand

Date: 2010-03-21 01:22 pm (UTC)
From: [identity profile] vigna.livejournal.com
Не всю жизнь, но в течение трёх или пяти лет - во многих журналах есть такое требование.

Date: 2010-03-21 04:50 pm (UTC)
From: [identity profile] slavka.livejournal.com

1) про всю жизнь никто не говорил
2) а на чьи деньги делались исследования?

(no subject)

From: [identity profile] duchifat.livejournal.com - Date: 2010-03-22 08:48 pm (UTC) - Expand

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-22 09:00 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 10:04 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-23 05:24 am (UTC) - Expand

(no subject)

From: [identity profile] slavka.livejournal.com - Date: 2010-03-23 10:32 am (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-23 01:33 pm (UTC) - Expand

Date: 2010-03-22 05:36 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Ну, на классах научной этики (вас не заставляли их недавно брать), частенько упоминают о том, что ученые обязаны (как минимум, с моральной точки зрения) предоставлять реактивы, необходимые для воспроизведения их результатов. Всю жизнь или нет, как-то не обсуждается :)
Как ниже верно заметили, многие журналы формализуют такие требования.

(no subject)

From: [identity profile] duchifat.livejournal.com - Date: 2010-03-22 08:54 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 10:02 pm (UTC) - Expand
From: [identity profile] demographer.livejournal.com
есть и неопытные науки, до которых пассаж не очень применим
типа икономикса или демографии :)
From: [identity profile] shvarz.livejournal.com
С этими науками вообще капец, я туда даже не полез :)

Date: 2010-03-21 10:57 am (UTC)
From: [identity profile] plakhov.livejournal.com
Общее замечание. Вы опираетесь на презумпцию честности исследователя. Чудесно, когда можно так поступать.

Пара частных замечаний.
Некоторые методы анализа построены так, что они невоспроизводимы в точности. <...> Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.
Я не биолог, занимаюсь скорее чем-то близким к machine learning'у, но по-моему как. Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация. В частности, результат может быть "не воспроизводим в точности", но утверждение "этот результат мог быть получен этим методом на этих данных" должно оставаться проверяемым.

Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области?
Мне кажется, что да. Кажется, что в этом и состоит отличие науки от R&D на производстве. Понятно, что речь не о каких-то крайностях - не нужно пытаться учить дураков или троллей, не нужно посвящать этому 24 часа в сутки в ущерб всему остальному, и тд и тп. Но "в принципе", при разумных ограничениях - да, должно.

Date: 2010-03-21 11:29 am (UTC)
From: [identity profile] vvz.livejournal.com
> Понятно, что речь не о каких-то крайностях - не нужно пытаться учить дураков или троллей, не нужно посвящать этому 24 часа в сутки в ущерб всему остальному, и тд и тп.

А сколько времени на это нужно тратить? И, извините, кто за это будет платить?

Вот вдруг, с какого-то панталыку, кто-то решит, что не верит в hERG и потребует от меня научить его практической электрофизиологии. Где то ограничение, по которому я его должен привести в лабораторию и научить методу, которым пользуюсь?

Приводить только по выходным, только с 6 до 8 вечера и т.п.? Ведь многие методы хоть и описаны в деталях, но учат им не по книжкам, а на экспериментальных установках.

В обязанности учёного должно входить доложить о методе, который он использовал для получения данных, и только если этот метод уникальный и никто, кроме него, больше им не пользуется, научить кого-то (причём желательно не человека с нулевого уровня, а своих коллег), дабы они могли проверить результаты. Если же этот метод признан наукой (подвтерждён результатами из разных лабораторий), то никто никого учить не обязан. Сомневаешься в данных - иди, учись той или иной дисциплине, приходи в лабораторию (находи деньги или получай разрешение от начальства) и попробуй опровергнуть.

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-21 01:09 pm (UTC) - Expand

Date: 2010-03-21 04:55 pm (UTC)
From: [identity profile] the-boris.livejournal.com
Мне кажется что наука не работает без презумпции честности.
И пока в обязанности ученого НЕ входит обучение и тренировка, хотя крупные агенства занимаются популяризацией науки (Смотрите Hubble 3D во всех IMAX'ах города) это не совсем то что вы имеете в виду, верно? Вы не может рассказать как это должно выглядеть? Многие последствия важные для обывателя (ради чего он вообще бы стал лезть разбираться в науку) следует из некой общей научной концепции созданой сотней, а то и тысячей ученых. Чтобы разобраться с одной деталью картины вам потребуется примерно тоже самое время что заняло у ученого обучение+исследование. Или вам придется все равно верить ему на слово. Ясное дело этого не достаточно для валидации всей концепции, так как таким образом разобрались только с одной деталью (какой бы важной она не была). Как быть?

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 08:53 am (UTC) - Expand

Date: 2010-03-22 09:14 am (UTC)
From: [identity profile] gleb-kudr.livejournal.com
>Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация.

+100

Date: 2010-03-22 05:48 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация.

Метод вполне может быть и неплох, но суровая правда жизни такова, что мало кто заботится о том, чтобы использовать генераторы псевдослучайных чисел и записывать seed. Именно потому, что при повторном прогоне обычно результаты получаются очень даже схожие. Как я выш ответил одному человеку, люди сохраняют ту информацию, которую считают важной для воспроизведения эксперимента, но важность этой иноформации зачастую субъективна. Это не означает, что любой, не записавший seed для генератора псевдослучайных чисел, профанирует науку или занимается подделкой данных.

Но "в принципе", при разумных ограничениях - да, должно.
Ну, в принципе, при разумных ограничения - оно и существует. Обычно люди только рады принять кого-нибудь из другой лабы и обучить их своей методике. Но вот, в том же случае с климат-гейтом, этих ученых забрасывали десятками е-мейлов, в которых говорили "а я не понимаю, что именно вы сделали вот на этом шаге, объясните подробнее", "в ваших мат.выкладках есть переход от формулы А к Б, приведите все промежуточные шаги" и т.д.

(no subject)

From: [identity profile] plakhov.livejournal.com - Date: 2010-03-22 06:03 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 06:05 pm (UTC) - Expand

(no subject)

From: [identity profile] imageman72.livejournal.com - Date: 2010-03-24 07:50 am (UTC) - Expand
From: [identity profile] misha-b.livejournal.com

Насчет bootstrapping и других методов, основанных на случайных выборках Ваше утверждение не совсем верно. Как правило, для выборок используются генераторы (псевдо)случайных чисел и результат полностью воспроизводим, если известно начальное значение (seed) заданное генератору.

В некоторых статьях это значение указывается.
From: [identity profile] brzhezinski.livejournal.com
да

хотя не все об этом знают или используют, т.к. по дефолту, seed часто также выбирается (pseudo)randomly - тогда уж точно ничего не воспроизведёшь, пожалуй

Date: 2010-03-21 01:30 pm (UTC)
From: [identity profile] riverock.livejournal.com
//Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. //Хранить столько данных невозможно даже при самых современных технологиях хранения //информации.

Откуда эти цифры? на сайте самого керна говорится что у ниг грид 15петабайт
http://public.web.cern.ch/public/en/lhc/Computing-en.html

в других источниках указывыается что в одну сек генерится 150мб инфы.
http://www.google.com/search?num=30&hl=en&rlz=1B3GGGL_ruRU331RU331&q=petabyte+cern&btnG=Search&aq=f&aqi=&aql=&oq=&gs_rfai=


сути поста это конечно не меняет. просто поразила цифра в 1петабай/сек

Date: 2010-03-22 05:59 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Ну да, конечная цифра вполне совпадает с моей - 100-150 мб в секунду. Цифра про петабайт из отчета, который я сейчас читаю. Ссылки там нет.

Date: 2010-03-21 05:50 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Вы забыли упомянуть, что в подавляющем большинстве случаев повторять чужую работу просто никто не будет. У тех кто может -- у них своя работа есть, гораздо более им важная и интересная. А у тех кто не может, у тех все равно не получится, сколько данных в открытый доступ не выкладывай.

Так что ни чему, кроме лишних бессмысленых расходов исполнение этого требования не приведет.

Date: 2010-03-22 10:10 am (UTC)
From: [identity profile] hoegni.livejournal.com
В полной мере повторять - нет. Но использовать сходные методы, воспроизвести часть работы, чтобы, основываясь на ней, сделать что-то свое - это сколько угодно, так что межлабораторная воспроизводимость результата до сих пор остается важным показателем достоверности.

(no subject)

From: [identity profile] vasja-iz-aa.livejournal.com - Date: 2010-03-22 10:30 pm (UTC) - Expand

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 06:00 pm (UTC) - Expand

Date: 2010-03-22 09:12 am (UTC)
From: [identity profile] gleb-kudr.livejournal.com
> Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.

Это что, они не библиотеку хранят, а просто набор текстовых файлов? А если библиотеку, то какая проблема отсеквенировать еще раз?

Date: 2010-03-22 12:54 pm (UTC)
From: [identity profile] kelavrik-0.livejournal.com
Пересеквенировали, нашли расхождение. В прошлый раз просеквенировали неправильно или вирус мутировал?

(no subject)

From: [identity profile] shvarz.livejournal.com - Date: 2010-03-22 06:00 pm (UTC) - Expand

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 25th, 2025 03:48 pm
Powered by Dreamwidth Studios